基于多模态大模型的实时视频翻译与音画同步方法及系统

申请号：CN202510380695

申请日期：2025-03-28

公开号：CN120218091A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提供了一种基于多模态大模型的实时视频翻译与音画同步方法及系统，涉及视频翻译技术领域，包括：获取源视频；基于所述多模态大模型对所述源视频进行提取，得到多模态特征；通过跨模态注意力机制对所述多模态特征进行融合，生成上下文语义向量；基于所述上下文语义向量实时翻译为目标语言文本，并基于所述多模态特征处理所述翻译语言文本，得到翻译语言音源；基于所述翻译语言音源对所述源视频进行口型调整，并将所述翻译语言音源和口型动画视频进行合并，得到音画同步的实时翻译视频。本发明，突破传统单一模态翻译的局限，通过多模态特征，结合跨模态注意力机制动态对齐上下文信息，显著提升翻译的语义准确性。

技术关键词

翻译语言音画同步方法多模态特征语义向量实时视频跨模态注意力机制文本双线性插值动画动态时间规整算法声纹特征滑动窗口机制关键点语音关键帧翻译技术掩码矩阵