摘要
本发明提供一种音频驱动的口唇同步方法、装置、设备及介质,方法包括:获取人脸真实图像、音频数据和人脸参考图像;将人脸真实图像、音频数据和人脸参考图像输入至口唇同步视频生成模型中,得到口唇同步视频生成模型输出的口唇同步视频;其中,口唇同步视频生成模型是根据音频样本、人脸参考样本以及对应的口唇同步视频样本训练得到的,口唇同步视频生成模型是根据对输入的口唇同步视频样本进行正向加噪,并结合音频样本和人脸参考样本,对正向加噪得到的噪声序列进行反向去噪训练得到的。本发明通过结合多模态特征和去噪机制,生成口唇动作精准同步、面部细节丰富、整体视觉效果自然的口唇同步视频。