基于多模态大模型的实时视频翻译与音画同步方法及系统
申请号:CN202510380695
申请日期:2025-03-28
公开号:CN120218091A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提供了一种基于多模态大模型的实时视频翻译与音画同步方法及系统,涉及视频翻译技术领域,包括:获取源视频;基于所述多模态大模型对所述源视频进行提取,得到多模态特征;通过跨模态注意力机制对所述多模态特征进行融合,生成上下文语义向量;基于所述上下文语义向量实时翻译为目标语言文本,并基于所述多模态特征处理所述翻译语言文本,得到翻译语言音源;基于所述翻译语言音源对所述源视频进行口型调整,并将所述翻译语言音源和口型动画视频进行合并,得到音画同步的实时翻译视频。本发明,突破传统单一模态翻译的局限,通过多模态特征,结合跨模态注意力机制动态对齐上下文信息,显著提升翻译的语义准确性。
技术关键词
翻译语言
音画同步方法
多模态特征
语义向量
实时视频
跨模态
注意力机制
文本
双线性插值
动画
动态时间规整算法
声纹特征
滑动窗口机制
关键点
语音
关键帧
翻译技术
掩码矩阵