基于自然语言与目标状态信息的视觉目标跟踪方法

申请号：CN202511119146

申请日期：2025-08-11

公开号：CN121033725A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了基于自然语言与目标状态信息的视觉目标跟踪方法，包括以下步骤；步骤(1)：构建训练样本集；步骤(2)：构建基于自然语言与目标状态信息的视觉目标跟踪模型；步骤(3)：调整图像‑文本编码器的参数并加载预训练权重，得到文本与第一模板融合后的特征、第二模板的特征和搜索图像的特征；步骤(4)：将样本集中的目标的位置信息与目标的边界框信息融合到第二模板的特征之中；步骤(5)：获取联合建模后的特征；步骤(6)：获取查询后包含目标位置信息的token；步骤(7)：获取预测的目标边界框回归结果；步骤(8)：获取最终的跟踪结果。本发明有效提高了基于自然语言的视觉跟踪器的跟踪准确率。

技术关键词

自然语言跟踪方法模板特征文本编码器前馈神经网络图像视觉注意力训练样本集搜索特征解码通道线性信息模块