摘要
本发明涉及计算机视觉处理领域,具体的说是一种基于深度神经网络模型及多示例学习的视频检索方法,包括,对查询文本预训练得到初始特征,对视频提取I 3D‑RGB特征及ROI特征及连接特征;更新得到帧级视觉特征及字级文本特征;构造训练用图,图注意力网络学习得到词级文本特征;计算词级文本和字级文本特征残差,残差均值为句子级文本特征;对帧级视觉特征进行段维度平均运算得到管道级视觉特征;计算句子级文本特征、管道级视觉特征的对齐分数,构建正样本对和负样本对,训练视频检索网络;本发明通过深度学习特征获取多查询文本中的鉴别力特征来构造图神经网络,以在弱监督设定下提供更具有表征含义的文本特征及多模态对齐监督信号。