摘要
本发明属于视频特征解析技术领域,尤其涉及一种多模态视频数据与文本数据混合融合方法及系统,包括:基础模态融合与语义引导的多模态融合;使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3;通过文本特征编码器提取:文本数据;使用彩色视频数据作为视觉数据1,深度数据作为视觉数据2,红外数据作为视觉数据3,这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补;随后,系统进入语义引导的多模态融合阶段,在这个阶段通过构建语义注意力权重,将文本语义特征动态映射到视觉特征空间,以此指导多模态视觉特征的融合过程。