摘要
本申请涉及人工智能技术领域,公开了一种人脸视频生成方法及其模型训练方法、装置及相关设备。该人脸视频生成模型训练方法包括:获取待处理的初始人脸图像、初始音频数据、以及情绪标签;通过预设的3D人脸重建工具处理初始人脸图像,得到第一表情特征数据;从初始音频数据提取初始音频特征数据,根据情绪标签生成对应的情绪单热特征向量;融合第一表情特征数据、初始音频特征数据和情绪单热特征向量,得到第一人脸表情系数;注入预设的噪声数据至初始人脸图像,得到第二人脸图像;输入初始人脸图像、第二人脸图像和第一人脸表情系数至预设的条件扩散模型,得到带表情的目标人脸视频,生成的人脸视频更加精准表达情绪标签所对应的面部表情。