音频驱动的口唇同步方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
音频驱动的口唇同步方法、装置、设备及介质
申请号:CN202510771256
申请日期:2025-06-10
公开号:CN120602741A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提供一种音频驱动的口唇同步方法、装置、设备及介质,方法包括:获取人脸真实图像、音频数据和人脸参考图像;将人脸真实图像、音频数据和人脸参考图像输入至口唇同步视频生成模型中,得到口唇同步视频生成模型输出的口唇同步视频;其中,口唇同步视频生成模型是根据音频样本、人脸参考样本以及对应的口唇同步视频样本训练得到的,口唇同步视频生成模型是根据对输入的口唇同步视频样本进行正向加噪,并结合音频样本和人脸参考样本,对正向加噪得到的噪声序列进行反向去噪训练得到的。本发明通过结合多模态特征和去噪机制,生成口唇动作精准同步、面部细节丰富、整体视觉效果自然的口唇同步视频。
技术关键词
视频生成模型 样本 音频 人脸 序列 图像 同步方法 残差网络 扩散层 噪声 交叉注意力机制 视频帧 非暂态计算机可读存储介质 编码特征 多模态特征 数据获取模块 处理器