摘要
本发明公开了一种基于深度文本‑视觉模态对齐与融合的再识别方法,属于计算机视觉和模式识别领域,该方法设计了一种文本‑视觉模态对齐与融合的深度神经网络,包含文本描述生成模块,视觉特征编码模块,文本特征编码模块和文本‑视觉特征融合模块;该方法首先利用视觉问答生成图像对应实例级文本描述,再通过深度耦合的视觉编码器和文本编码器两个特征提取分支分别生成强对齐的视觉特征和文本特征,最后采用文本‑视觉模态对齐融合技术,联合域无关归一化,增强图像目标前景特征表示,再联合实例归一化提取最终特征,然后利用损失函数模型训练,实现再识别任务。本发明提出的方法能够有效增强目标再识别模型的跨域泛化性能。