基于目标自适应文本引导视觉融合的RGBT跟踪方法

申请号：CN202510510767

申请日期：2025-04-23

公开号：CN120031918A

公开日期：2025-05-23

类型：发明专利

摘要

本发明公开了一种基于目标自适应文本引导视觉融合的RGBT跟踪方法，包括利用BLIP模型为多模态数据集中的每一帧图像生成目标文本描述；对视频序列和文本描述进行随机采样，获得多模态图像以及对应的目标文本描述；通过视觉编码器和文本编码器分别提取目标的视觉特征和文本特征；通过多模态共享与互补信息提示器增强多模态视觉特征，并利用目标文本自适应增强模块提升文本特征；将文本特征与视觉特征融合得到多模态融合特征，并作为分类回归头的输入进行优化训练；最后执行在线跟踪，加载训练的模型测试跟踪效果。本发明通过文本中包含的目标类别、外观颜色、运动状态等语义信息，增强视觉特征的表达能力，提高了跟踪精度和鲁棒性。

技术关键词

信息提示器跟踪方法多模态视觉特征文本编码器分支融合特征通道注意力机制矩阵可见光图像多层感知机数据索引模块元素