摘要
本申请涉及字幕翻译技术领域,尤其是涉及一种多模态时序对齐AI视频翻译方法、系统,其包括:步骤1:对待翻译视频进行多模态解析,得到音频分离数据、声纹特征数据和视觉时序数据;步骤2,基于音频分离数据的人声进行跨语言翻译和语境优化生成目标语言文本,结合声纹特征数据和目标语言文本合成保留原人声音色的目标语言语音;基于唇部关键点数据和肢体动作时序数据生成与目标语言语音匹配的口型动画;步骤3,通过跨模态时序编码器将目标语言语音、翻译文本、口型动画及肢体动作序列进行四维对齐,并动态调整双语字幕的布局适配视频画面。本申请具有使得视频进行翻译时能够兼顾多模态同步,使得语音、字幕和口型等肢体动作之间保持对齐的效果。