多模态信息与局部-全局特征融合的视频动作识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
多模态信息与局部-全局特征融合的视频动作识别方法
申请号:CN202510209339
申请日期:2025-02-25
公开号:CN120148109A
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了一种多模态信息与局部‑全局特征融合的视频动作识别方法。本发明采用文本编码器将标签文本转换为文本特征,并利用跨模态自适应约束融合模块将文本特征与视频信息进行有效地融合,提高对视频特征的表示能力。同时,跨模态自适应约束融合模块中还引入了可学习的Token因子,引导模型更有效地学习视频中特定的信息,避免模型过于依赖原始数据的偏差和噪声特性。本发明提出的局部‑全局特征融合模块通过多尺度自注意力机制捕捉局部‑全局之间的相关性,从而有效地融合局部和全局特征。因此,本发明能够有效地融合多模态信息,解决了局部‑全局特征融合不够充分的问题,得到精确描述动作的特征张量,从而实现对视频动作的精确识别。
技术关键词
视频动作识别方法 全局特征融合 通道注意力机制 融合特征 网络 积层 跨模态 文本编码器 融合多模态信息 多尺度 模块 标签文本 视频帧 计算机程序产品 处理器