摘要
本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于渐进式交互和多模态对齐的视频片段句子定位算法。步骤如下:首先将与视频相关的所有查询句子根据该查询句子对应的视频片段在视频中的顺序进行排序后与视频特征和在特征维度进行拼接,再将其经过多模态对齐模块提取视频与查询句子特征各自的模态内信息以及两个模态之间的信息,随后根据与查询句子交互后的视频特征生成多个候选片段,通过分组候选片段交互模块学习候选片段之间的关系,然后通过度量学习缩小对应的候选片段特征与查询句子特征对的差异,最后将所有候选片段特征与单个查询句子特征计算匹配分数,分数高的作为预测结果。本发明可以精准地对视频片段进行定位。