自适应视觉-语言匹配检测与跟踪方法

申请号：CN202511047813

申请日期：2025-07-29

公开号：CN120563868B

公开日期：2025-09-23

类型：发明专利

摘要

本发明属于计算机视觉、视觉‑语言匹配检测、多模态目标跟踪领域，公开了一种自适应视觉‑语言匹配检测与跟踪方法。首先利用预训练多模态大模型的模态对齐与表征优势，构建视觉‑语言多模态跟踪大模型；并提出视觉上下文感知提示学习算法，从当前搜索特征中提取视觉上下文特征，采用提示学习将其融入文本编码过程，实现文本特征对视觉变化的动态感知；此外，设计语言自适应隐式更新机制，通过在文本编码过程中嵌入可学习向量，并结合动态的视觉上下文线索，实现在跟踪过程中对文本特征的隐式更新，使静态语言能够动态匹配视觉外观，从而提升视觉‑语言检测跟踪性能。

技术关键词

文本编码器搜索特征图像编码器上下文特征多模态模板特征跟踪方法提示器分支分词模块参数计算机视觉注意力学习算法

系统为您推荐了相关专利信息

一种基于跨模态视觉-文本融合的遥感图像分割方法

遥感图像分割方法跨模态图像编码器语言编码器图像解码器

一种红外图像与可见光图像的融合方法

可见光图像融合方法深度卷积网络语义分割神经网络热力图

基于互联网大数据的个性化视觉传达元素推荐方法及系统

多平台交互元素推荐方法互联网大数据兴趣画像

一种SF6气体监测数据在线处理系统

处理单元变电站SF6气体云端传输单元展示单元

一种基于多模态兰姆波的缺陷检测方法及装置

回折线圈缺陷检测装置缺陷检测方法多模态双频接收