摘要
一种基于多粒度跨模态对比学习的连续手语识别方法,首先充分挖潜手语视频与对应手语文本之间的隐性语义映射关系;接着利用多粒度跨模态对比机制去缓解冗余帧和语义无关标识词对跨模态对齐的潜在影响,通过粗粒度视频‑句子对比与细粒度帧‑词对比策略,从全局和局部角度对视觉与文本模态的特征进行有效对齐,通过跨粒度视频‑词对比和跨粒度帧‑句子对比策略来缓解冗余帧和语义无关标识词带来的语义干扰;最后利用视觉编码器中获得的视觉嵌入,通过解码器获得手语文本句子,作为预测的连续手语识别结果。本发明充分挖潜手语视频与对应手语文本之间的隐性语义映射关系,增强了手语模型对视觉上下文的语义理解,提高了手语识别的适用性和准确性。