摘要
本发明提供了一种基于弱监督动态优化的运动目标智能检测方法及系统,对原始视频和文本分别提取视频特征和文本特征,并进行融合,生成帧级语义相似度得分作为伪标签;利用可学习对象查询与融合特征交互,生成正负提案掩码;利用伪标签引导正提案的特征对比学习,使正提案在语义空间中无限贴合文本特征,并使负提案无限偏离文本特征的相关区域;利用正负提案掩码,基于掩码条件Transformer进行文本重建,并对不同提案进行语义一致性训练,得到视频时域定位结果;对视频时域定位结果进行动态优化,生成最终定位结果,完成运动目标智能检测。本发明通过构建可学习负提案与动态伪标签约束机制,显著提升了在弱监督条件下的时域定位精度。