基于全模态对齐的手语翻译模型、系统及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于全模态对齐的手语翻译模型、系统及方法
申请号:CN202511415426
申请日期:2025-09-30
公开号:CN120894834B
公开日期:2025-12-23
类型:发明专利
摘要
本发明公开了基于全模态对齐的手语翻译模型、系统及方法,包括:从输入视频中提取手部、面部及身体姿态的多模态特征并进行初步融合;继而通过多尺度时序编码与跨模态协同注意力机制进行深度二次融合与对齐,生成全模态对齐的时空特征序列;随后利用基于CTC的序列预测模型对该特征序列进行边界检测与动态分割,输出带时间戳的离散手语词序列;最后,将该序列经图结构增强的Transformer编码器捕获手语语法结构后,输入集成语法一致性损失的Transformer解码器,生成符合目标自然语言语法和语义规则的目标文本。本发明有效解决了连续手语动作粘连和语法结构差异问题,大幅提升了手语翻译的准确性和自然语言生成的流畅性。
技术关键词
手语翻译方法 连续手语 协同注意力 序列 语法结构 语义 自然语言文本 模态特征 面部关键点 跨模态 编码 姿态估计算法 身体 多尺度 翻译模型 姿态特征