基于潜在视觉–文本对齐的无gloss手语翻译方法及系统

申请号：CN202511484788

申请日期：2025-10-17

公开号：CN120954105A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了基于潜在视觉–文本对齐的无gloss手语翻译方法及系统，涉及计算机视觉与自然语言处理领域，包括：获取手语视频帧序列数据和对应的文本句子数据；对潜在视觉片段进行特征提取，生成潜在视觉表示；对文本子词单元进行特征提取，生成潜在文本表示；将潜在视觉表示和对应的潜在文本表示映射到相同的潜在嵌入空间；在潜在嵌入空间中，将潜在视觉片段与文本子词单元对齐，获得对齐后的数据；将对齐后的数据输入初始手语翻译模型，并以掩码文本重建任务与手语视频到文本翻译任务作为联合优化目标，对手语翻译模型进行训练，获得手语翻译模型；获取目标手语视频数据，输入手语翻译模型，获得翻译结果。本发明提高了翻译质量。

技术关键词

手语翻译方法翻译模型视频帧计算机程序指令数据对齐模块文本编码器模型训练模块计算机存储介质特征提取模块数据获取模块序列计算机视觉电子设备自然语言处理器