多模态信息与局部-全局特征融合的视频动作识别方法

申请号：CN202510209339

申请日期：2025-02-25

公开号：CN120148109A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种多模态信息与局部‑全局特征融合的视频动作识别方法。本发明采用文本编码器将标签文本转换为文本特征，并利用跨模态自适应约束融合模块将文本特征与视频信息进行有效地融合，提高对视频特征的表示能力。同时，跨模态自适应约束融合模块中还引入了可学习的Token因子，引导模型更有效地学习视频中特定的信息，避免模型过于依赖原始数据的偏差和噪声特性。本发明提出的局部‑全局特征融合模块通过多尺度自注意力机制捕捉局部‑全局之间的相关性，从而有效地融合局部和全局特征。因此，本发明能够有效地融合多模态信息，解决了局部‑全局特征融合不够充分的问题，得到精确描述动作的特征张量，从而实现对视频动作的精确识别。

技术关键词

视频动作识别方法全局特征融合通道注意力机制融合特征网络积层跨模态文本编码器融合多模态信息多尺度模块标签文本视频帧计算机程序产品处理器