音频驱动的口唇同步方法、装置、设备及介质

申请号：CN202510771256

申请日期：2025-06-10

公开号：CN120602741A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供一种音频驱动的口唇同步方法、装置、设备及介质，方法包括：获取人脸真实图像、音频数据和人脸参考图像；将人脸真实图像、音频数据和人脸参考图像输入至口唇同步视频生成模型中，得到口唇同步视频生成模型输出的口唇同步视频；其中，口唇同步视频生成模型是根据音频样本、人脸参考样本以及对应的口唇同步视频样本训练得到的，口唇同步视频生成模型是根据对输入的口唇同步视频样本进行正向加噪，并结合音频样本和人脸参考样本，对正向加噪得到的噪声序列进行反向去噪训练得到的。本发明通过结合多模态特征和去噪机制，生成口唇动作精准同步、面部细节丰富、整体视觉效果自然的口唇同步视频。

技术关键词

视频生成模型样本音频人脸序列图像同步方法残差网络扩散层噪声交叉注意力机制视频帧非暂态计算机可读存储介质编码特征多模态特征数据获取模块处理器