摘要
本发明公开了一种视觉‑语言信息交互增益的行人重识别方法与系统,涉及跨模态行人识别技术领域。本发明提出了数据处理优化与深度交互融合方案,主要包含了四个处理阶段:数据处理阶段通过显著性网络生成热力图,结合网格模块实现非均匀采样以放大关键区域特征;属性提取阶段采用Grounded SAM模型生成视觉属性掩码,同时利用GPT2模型解析文本属性;特征融合阶段将视觉属性掩码与原始图像特征加权融合,并通过CLIP模型实现跨模态编码;损失优化阶段设计层次化对齐损失函数,依据相似度细分样本对,优化难样本对齐。本发明通过显著性采样增强关键特征表达、双模态属性深度交互及层次化损失优化,显著提升复杂场景下的行人重识别准确率。