一种基于跨模态时空联合学习的多模态视频目标识别方法
申请号:CN202510679690
申请日期:2025-05-26
公开号:CN120236233B
公开日期:2025-08-22
类型:发明专利
摘要
本发明属于多模态数据处理技术领域,涉及一种基于跨模态时空联合学习的多模态视频目标识别方法,包括:1、数据预处理;对两种模态视频进行预处理,增强数据稳定性;2、视觉特征提取;从每帧中提取低阶视觉特征,提取特征图;3、跨模态时空联合学习网络;构建跨时空联合学习网络,提取高阶特征并实现模态间融合;4、特征融合与目标识别;经过多层跨模态自注意力计算得到融合特征;压缩融合特征为特征向量,输出分类结果;本发明通过Patch数量维度拼接和跨模态定向注意力机制,不仅保留了模态独立性,还实现了精准的时空交互,降低了计算复杂度;本发明在特征融合效率和目标识别精度上进行改进,特别是在实时性要求高的场景中表现出色。
技术关键词
跨模态
识别方法
融合特征
视频
视觉特征提取
Softmax函数
分辨率
注意力机制
特征提取网络
元素
数据处理技术
矩阵
序列
多模态
坐标
复杂度