摘要
本发明公开一种稀疏时空标记引导的多模态目标跟踪方法,通过网络模型进行联合特征提取、模态融合和模板搜索匹配,并在在多个层级引入稀疏时空标记来嵌入目标外观变化信息来完成精确的目标跟踪。第一阶段,根据初始帧的目标框分别裁切两个模态的搜索区域图像和模板图像,然后将模板搜索图像编码并投影到序列特征空间,将两个模态的模板和搜索序列特征拼接到一起,送入堆叠的序列特征编码层;第二阶段,在预设编码层中引入来自历史帧的稀疏时空标记分别与各自模态的搜索区域进行交叉注意力来嵌入目标变化的信息,第三阶段,将经过多层编码提取的两个模态的搜索标记特征拼接在一起送入跟踪预测头得到得分最高的响应点坐标以及回归框的值,最终通过相对变换得到实际目标的跟踪结果坐标以及边界框。