基于自然语言描述和协同全局-局部视角学习的目标追踪方法
申请号:CN202411605976
申请日期:2024-11-12
公开号:CN119559548B
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种基于自然语言描述和协同全局‑局部视角学习的目标追踪方法,所述方法包括如下步骤:步骤1、输入视频帧的特征提取与初步处理;步骤2、全局和局部分支视觉特征的提取;步骤3、多模态特征对齐实现信息互补和一致性表达;步骤4、对称注意力操作选择重要信息;步骤5、通过预测模块估计目标的位置;步骤6、追踪模型优化。本发明通过全局与局部特征的协同建模、多模态对齐机制以及对称注意力的特征增强,显著提升了目标追踪的精度和鲁棒性,解决了现有技术中全局与局部信息融合不充分、视觉与语言特征对齐能力不足的问题。本发明能够在复杂场景和自然语言描述的条件下精准定位目标,并在多个具有自然语言标注的目标追踪数据集上展现了卓越的性能。
技术关键词
自然语言
追踪方法
视觉特征
交叉注意力机制
前馈神经网络
多模态特征
分支
深度特征提取
视角
多模态信息
文本编码器
阶段
缩放参数
分区
语义
广义
模块