摘要
本申请涉及行人重识别技术领域,其具体地公开了一种基于多模态特征和知识库增强的行人重识别方法及系统,其在提取图像中行人外观视觉特征的同时,利用视觉大模型生成行人状态文本描述信息,以构建RAG临时知识库,为每个行人ID存储多时间点、多视角下的视觉外观与文本描述特征对。在接收到新的视频帧时,进一步通过行人检测技术定位视频帧中的每位行人ROI,并提取其多模态查询特征,从而基于当前行人的多模态查询特征与知识库中多模态存储特征的相似度匹配结果,为当前行人分配或创建行人ID,并实时更新知识库。通过这种方式,能够更全面地刻画行人的身份特征,提升多视角和多人场景下的行人重识别可靠性与鲁棒性。