摘要
本发明属于机器学习、计算机视觉、目标跟踪领域,公开了一种基于模态统一表示的多模态统一目标跟踪方法。通过一个多模态嵌入层,将可见光、深度、红外、事件、自然语言模态表示为统一的标记形式,使得训练一个Transformer模型对多种模态的联合特征提取与融合成为可能,从而开发可处理不同的多模态输入信号的目标跟踪模型。此外,本方法中引入任务识别训练策略以增强模型分辨不同模态跟踪任务的能力,提出软标记类型嵌入提供给模型精确的标记类型信息,进一步提升该多模态统一模型性能表现。最终,本方法通过统一的方案解决了不同的多模态跟踪任务,实现了不同任务间的架构统一、模型统一、知识共享,在五种多模态跟踪任务上取得良好的跟踪性能。