一种多模态时序对齐AI视频翻译方法、系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态时序对齐AI视频翻译方法、系统
申请号:CN202510469278
申请日期:2025-04-15
公开号:CN120416568A
公开日期:2025-08-01
类型:发明专利
摘要
本申请涉及字幕翻译技术领域,尤其是涉及一种多模态时序对齐AI视频翻译方法、系统,其包括:步骤1:对待翻译视频进行多模态解析,得到音频分离数据、声纹特征数据和视觉时序数据;步骤2,基于音频分离数据的人声进行跨语言翻译和语境优化生成目标语言文本,结合声纹特征数据和目标语言文本合成保留原人声音色的目标语言语音;基于唇部关键点数据和肢体动作时序数据生成与目标语言语音匹配的口型动画;步骤3,通过跨模态时序编码器将目标语言语音、翻译文本、口型动画及肢体动作序列进行四维对齐,并动态调整双语字幕的布局适配视频画面。本申请具有使得视频进行翻译时能够兼顾多模态同步,使得语音、字幕和口型等肢体动作之间保持对齐的效果。
技术关键词
视频翻译方法 多模态 时序 双语字幕 声纹特征 语音 画面 数据 切片 音频 场景 关键点 字幕翻译技术 文本 人声 动画 屏幕 跨模态
系统为您推荐了相关专利信息
机器人协同工作 全局状态信息 注意力机制 时序 周围环境信息
仿真建模方法 心血管系统 左心室 路径结构 多模态心脏图像
锂离子电池表面 表面缺陷视觉检测方法 新能源锂电池 图像采集系统 特征提取能力
视频补全方法 像素 图像融合策略 生成结构 序列
多模态特征融合 分析判断方法 感兴趣 元素 图像