一种多模态时序对齐AI视频翻译方法、系统

申请号：CN202510469278

申请日期：2025-04-15

公开号：CN120416568A

公开日期：2025-08-01

类型：发明专利

摘要

本申请涉及字幕翻译技术领域，尤其是涉及一种多模态时序对齐AI视频翻译方法、系统，其包括：步骤1：对待翻译视频进行多模态解析，得到音频分离数据、声纹特征数据和视觉时序数据；步骤2，基于音频分离数据的人声进行跨语言翻译和语境优化生成目标语言文本，结合声纹特征数据和目标语言文本合成保留原人声音色的目标语言语音；基于唇部关键点数据和肢体动作时序数据生成与目标语言语音匹配的口型动画；步骤3，通过跨模态时序编码器将目标语言语音、翻译文本、口型动画及肢体动作序列进行四维对齐，并动态调整双语字幕的布局适配视频画面。本申请具有使得视频进行翻译时能够兼顾多模态同步，使得语音、字幕和口型等肢体动作之间保持对齐的效果。

技术关键词

视频翻译方法多模态时序双语字幕声纹特征语音画面数据切片音频场景关键点字幕翻译技术文本人声动画屏幕跨模态

系统为您推荐了相关专利信息

自动化物流场景下基于Transformer的多机器人协同工作方法及系统

机器人协同工作全局状态信息注意力机制时序周围环境信息

一种针对左心室重构的心血管系统仿真建模方法

仿真建模方法心血管系统左心室路径结构多模态心脏图像

一种基于YOLOv8模型的新能源锂电池表面缺陷视觉检测方法

锂离子电池表面表面缺陷视觉检测方法新能源锂电池图像采集系统特征提取能力

融合状态空间建模与语义引导的视频补全方法

视频补全方法像素图像融合策略生成结构序列

一种基于多模态特征融合的架构图合理性分析判断方法

多模态特征融合分析判断方法感兴趣元素图像