摘要
本发明公开了一种基于多模态融合的自然语言视频时刻检索方法,属于数据识别技术领域,包括步骤:获取用于自然语言视频时刻定位的数据集;构造一通道感知的多尺度时序建模模块MD1;获取一文本编码器;构造一多头解耦式跨模态特征融合模块MD2,构造语义调制门控卷积模块MD3;基于MD1、MD2、文本编码器、MD3构造自然语言时刻检索网络并训练为自然语言时刻检索模型;用于待测视频的自然语言时刻检测。本发明通过MD1能显著增强与查询语义相关的视觉特征响应,通过MD2在多个语义子空间实现跨模态细粒度整合,通过MD3确保候选片段评分高度依赖查询语义,能显著提升定位精度与鲁棒性。