摘要
本发明属于计算机视觉、视觉‑语言匹配检测、多模态目标跟踪领域,公开了一种自适应视觉‑语言匹配检测与跟踪方法。首先利用预训练多模态大模型的模态对齐与表征优势,构建视觉‑语言多模态跟踪大模型;并提出视觉上下文感知提示学习算法,从当前搜索特征中提取视觉上下文特征,采用提示学习将其融入文本编码过程,实现文本特征对视觉变化的动态感知;此外,设计语言自适应隐式更新机制,通过在文本编码过程中嵌入可学习向量,并结合动态的视觉上下文线索,实现在跟踪过程中对文本特征的隐式更新,使静态语言能够动态匹配视觉外观,从而提升视觉‑语言检测跟踪性能。