基于潜在视觉–文本对齐的无gloss手语翻译方法及系统
申请号:CN202511484788
申请日期:2025-10-17
公开号:CN120954105A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了基于潜在视觉–文本对齐的无gloss手语翻译方法及系统,涉及计算机视觉与自然语言处理领域,包括:获取手语视频帧序列数据和对应的文本句子数据;对潜在视觉片段进行特征提取,生成潜在视觉表示;对文本子词单元进行特征提取,生成潜在文本表示;将潜在视觉表示和对应的潜在文本表示映射到相同的潜在嵌入空间;在潜在嵌入空间中,将潜在视觉片段与文本子词单元对齐,获得对齐后的数据;将对齐后的数据输入初始手语翻译模型,并以掩码文本重建任务与手语视频到文本翻译任务作为联合优化目标,对手语翻译模型进行训练,获得手语翻译模型;获取目标手语视频数据,输入手语翻译模型,获得翻译结果。本发明提高了翻译质量。
技术关键词
手语翻译方法
翻译模型
视频帧
计算机程序指令
数据对齐模块
文本编码器
模型训练模块
计算机存储介质
特征提取模块
数据获取模块
序列
计算机视觉
电子设备
自然语言
处理器