摘要
本发明公开了一种多模态信息与局部‑全局特征融合的视频动作识别方法。本发明采用文本编码器将标签文本转换为文本特征,并利用跨模态自适应约束融合模块将文本特征与视频信息进行有效地融合,提高对视频特征的表示能力。同时,跨模态自适应约束融合模块中还引入了可学习的Token因子,引导模型更有效地学习视频中特定的信息,避免模型过于依赖原始数据的偏差和噪声特性。本发明提出的局部‑全局特征融合模块通过多尺度自注意力机制捕捉局部‑全局之间的相关性,从而有效地融合局部和全局特征。因此,本发明能够有效地融合多模态信息,解决了局部‑全局特征融合不够充分的问题,得到精确描述动作的特征张量,从而实现对视频动作的精确识别。