摘要
本发明公开了一种基于多模态视觉的无人机对地目标追踪方法及系统,首先利用多模态传感器在无人机上采集目标多模态图像并获得采集图像数据,再对采集图像数据进行图像预处理并获得预处理后图像数据,接着构建基于Transformer架构并集成模态交互机制的深度学习模型;本发明实现了具有采用无人机搭载RGB和红外相机的方式获取目标的多模态图像数据从而应对复杂场景中的低光照和遮挡的功能,且采用基于Transformer架构的深度学习模型能提取双模态特征,而通过多头自注意力机制进行特征融合能增强目标识别能力,同时图像追踪模型在部署到无人机上后能实现每秒超过30帧的实时追踪并自动生成目标追踪报告,提高了无人机目标追踪稳定性,适合被广泛推广和使用。