摘要
本申请涉及一种文本视频多模态融合的视频时刻检索方法,将文本特征和多尺度视频特征进行全局融合,得到全局偏移量;将文本特征和多尺度视频特征进行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到总的偏移量;根据总的偏移量确定每个候选时刻对应的时间片段;对所有的时间片段采用非极大值抑制方法进行处理,得到最终的时间片段,即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题,既能捕捉到文本与视频之间的全局语义一致性,同时能够在更细粒度的层次上进行融合,有效的提升了视频时刻检索的准确性。