基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法
申请号:CN202411529792
申请日期:2024-10-30
公开号:CN119399505A
公开日期:2025-02-07
类型:发明专利
摘要
本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法,使用预训练视觉‑语言模型作为特征提取器,对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图;利用多层感知机生成查询级特征,通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示;然后进行知识蒸馏过程,将区域级特征表示的知识迁移到查询级特征表示上,还基于多模态对比学习方法,利用记忆块视觉原型和文本原型进行存储以及对比学习,使得相同特定类别特征彼此趋近,不同特定类别特征适当拉远,从而使原模型建立起更好的类内和类间关系,有效地提高了带有缺失标签场景下的多标签图像识别的准确性。
技术关键词
图像识别方法 视觉特征 原型 多层感知机 联合损失函数 代表 注意力 场景 标签生成方法 多模态 蒸馏 文本编码器 特征提取器 学习方法 记忆 参数