摘要
本发明公开了一种基于目标自适应文本引导视觉融合的RGBT跟踪方法,包括利用BLIP模型为多模态数据集中的每一帧图像生成目标文本描述;对视频序列和文本描述进行随机采样,获得多模态图像以及对应的目标文本描述;通过视觉编码器和文本编码器分别提取目标的视觉特征和文本特征;通过多模态共享与互补信息提示器增强多模态视觉特征,并利用目标文本自适应增强模块提升文本特征;将文本特征与视觉特征融合得到多模态融合特征,并作为分类回归头的输入进行优化训练;最后执行在线跟踪,加载训练的模型测试跟踪效果。本发明通过文本中包含的目标类别、外观颜色、运动状态等语义信息,增强视觉特征的表达能力,提高了跟踪精度和鲁棒性。