摘要
本发明公开了一种基于视觉‑语言多模态感知的电力设备目标跟踪方法,属于电力设备目标跟踪技术领域,首先,构建了一种语言引导的目标感知多模态外观建模模型,引入语言和视觉信息共同进行目标表征,利用稳定的语言特征选择更有效的视觉特征,结合自注意机制对两种多模态信息进行深度对齐和增强,提高目标模型的适应性。其次,为了更好的分类和回归,提出了一种视觉‑语言多模态联合感知模块,该模块利用稳定的语言特征和语言感知过的有效视觉特征,通过自注意力强相似先验计算,提前去除搜索区域内的非目标标记,提高了跟踪速度和准确性。