摘要
本发明公开了基于自然语言与目标状态信息的视觉目标跟踪方法,包括以下步骤;步骤(1):构建训练样本集;步骤(2):构建基于自然语言与目标状态信息的视觉目标跟踪模型;步骤(3):调整图像‑文本编码器的参数并加载预训练权重,得到文本与第一模板融合后的特征、第二模板的特征和搜索图像的特征;步骤(4):将样本集中的目标的位置信息与目标的边界框信息融合到第二模板的特征之中;步骤(5):获取联合建模后的特征;步骤(6):获取查询后包含目标位置信息的token;步骤(7):获取预测的目标边界框回归结果;步骤(8):获取最终的跟踪结果。本发明有效提高了基于自然语言的视觉跟踪器的跟踪准确率。