基于掩码去噪的文本到图像行人检索方法、装置及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于掩码去噪的文本到图像行人检索方法、装置及介质
申请号:CN202511277849
申请日期:2025-09-09
公开号:CN120804351B
公开日期:2025-12-16
类型:发明专利
摘要
本申请提供一种基于掩码去噪的文本到图像行人检索方法、装置及介质。该方法包括:按照设定概率对实体词和属性词分别执行掩码及同类词随机替换,生成经掩码替换的训练文本;将文本特征向量与图像特征向量输入跨模态交互编码器,得到融合特征表示;基于融合特征表示对被掩码位置的原始词语进行预测,计算掩码预测损失;基于文本特征向量与图像特征向量之间的相似度关系计算图文对比学习损失;利用行人检索模型对查询文本与待检索行人图像库分别提取特征,计算查询文本特征与各待检索行人图像特征的相似度并生成排序结果,以输出与查询文本匹配的目标行人图像。本申请能够提高噪声场景下的视觉语义对齐的鲁棒性,显著提升行人检索准确率。
技术关键词
图像特征向量 文本特征向量 文本编码器 图像编码器 融合特征 图像行人 图文 标记 图像库 检索方法 跨模态 词语 序列 语义向量 预训练语言模型 预测误差 双向注意力