摘要
本发明公开了基于全模态对齐的手语翻译模型、系统及方法,包括:从输入视频中提取手部、面部及身体姿态的多模态特征并进行初步融合;继而通过多尺度时序编码与跨模态协同注意力机制进行深度二次融合与对齐,生成全模态对齐的时空特征序列;随后利用基于CTC的序列预测模型对该特征序列进行边界检测与动态分割,输出带时间戳的离散手语词序列;最后,将该序列经图结构增强的Transformer编码器捕获手语语法结构后,输入集成语法一致性损失的Transformer解码器,生成符合目标自然语言语法和语义规则的目标文本。本发明有效解决了连续手语动作粘连和语法结构差异问题,大幅提升了手语翻译的准确性和自然语言生成的流畅性。