一种基于多粒度跨模态对比学习的连续手语识别方法

申请号：CN202510009489

申请日期：2025-01-03

公开号：CN119863842B

公开日期：2025-10-03

类型：发明专利

摘要

一种基于多粒度跨模态对比学习的连续手语识别方法，首先充分挖潜手语视频与对应手语文本之间的隐性语义映射关系；接着利用多粒度跨模态对比机制去缓解冗余帧和语义无关标识词对跨模态对齐的潜在影响，通过粗粒度视频‑句子对比与细粒度帧‑词对比策略，从全局和局部角度对视觉与文本模态的特征进行有效对齐，通过跨粒度视频‑词对比和跨粒度帧‑句子对比策略来缓解冗余帧和语义无关标识词带来的语义干扰；最后利用视觉编码器中获得的视觉嵌入，通过解码器获得手语文本句子，作为预测的连续手语识别结果。本发明充分挖潜手语视频与对应手语文本之间的隐性语义映射关系，增强了手语模型对视觉上下文的语义理解，提高了手语识别的适用性和准确性。

技术关键词

连续手语识别方法视频跨模态 Softmax函数一维卷积神经网络卷积神经网络提取序列特征语义特征视觉解码器文本编码器标签冗余策略标识时序特征