摘要
本发明公开了一种基于双向语义对齐的跨模态行人检索方法,属于计算机视觉技术领域。本发明通过深入分析文本和图像之间的中层语义,为缩小在全局匹配方法中所忽略的细粒度语义层面差距,提供更为丰富的语义理解;通过引入一种双向特征预测机制,即通过使用不完整的图像特征与完整的文本特征(或者完整的图像特征与不完整的文本特征)相结合,以预测并重构缺失的信息,实现更准确的文本‑图像跨模态对齐;在一个扩展的特征空间内,无缝集成来自文本和图像的多维语义和结构属性,以捕捉更细微的视觉细节和更深层的语义内容;提高了基于文本的图像检索任务的匹配精度和效率,使之能够在各种复杂的环境和条件下,有效识别和检索行人图像。