一种用于跨语种配音的视频口型匹配修正方法

申请号：CN202510736834

申请日期：2025-06-04

公开号：CN120259139A

公开日期：2025-07-04

类型：发明专利

摘要

本发明属于视频处理技术领域，具体是公开了一种用于跨语种配音的视频口型匹配修正方法，方法包括：语音和口型数据采集、语音识别与翻译、面部关键点检测和口型匹配与修正。本方案采用基于多模态深度学习的音素‑口型动态映射技术，利用面部关键点检测技术精准定位唇部区域像素，通过动态掩码生成技术分离唇部区域网格顶点，实现跨语种音频特征到目标口型动作的精准映射；通过3D面部网格预测器提取面部动态参数，结合移动平均潜在平滑技术，根据相邻帧的权重系数自动学习张嘴幅度的渐变过程使生成的唇部动作能融合面部结构特征与历史帧动作模式，同时引入同步正则化技术，强制约束生成视频与音频的同步性。

技术关键词

面部关键点检测修正方法图像解码器音频编码器视频帧多模态深度学习样式网格编码特征融合特征正则化技术动态掩膜语音顶点面部结构同步性