一种基于属性学习和特征筛选的多粒度文本行人搜索方法
申请号:CN202510962877
申请日期:2025-07-14
公开号:CN120853185A
公开日期:2025-10-28
类型:发明专利
摘要
本发明提供一种基于属性学习和特征筛选的多粒度文本行人搜索方法,对图像‑文本对进行粗粒度特征学习,利用概率模型过滤噪声数据,并通过自监督成本函数优化跨模态对齐以获取全局特征;基于编码器输出的自注意力权重筛选图像和文本的token,生成中粒度特征表示;对文本中符合形容词‑名词组合的行人属性词汇进行随机掩码,通过多模态交互编码器融合特征并预测被掩码词汇,实现细粒度属性对齐;组合粗粒度损失、中粒度损失和细粒度损失,迭代训练模型并根据验证准确率保存最优模型,输出行人搜索结果。
技术关键词
行人搜索方法
文本
多模态交互
编码器
噪声数据
融合特征
跨模态
交叉注意力机制
高斯混合模型
搜索系统
多层感知机
图像分割
输出模块
标记
序列
理论