基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法

申请号：CN202411529792

申请日期：2024-10-30

公开号：CN119399505A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法，使用预训练视觉‑语言模型作为特征提取器，对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图；利用多层感知机生成查询级特征，通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示；然后进行知识蒸馏过程，将区域级特征表示的知识迁移到查询级特征表示上，还基于多模态对比学习方法，利用记忆块视觉原型和文本原型进行存储以及对比学习，使得相同特定类别特征彼此趋近，不同特定类别特征适当拉远，从而使原模型建立起更好的类内和类间关系，有效地提高了带有缺失标签场景下的多标签图像识别的准确性。

技术关键词

图像识别方法视觉特征原型多层感知机联合损失函数代表注意力场景标签生成方法多模态蒸馏文本编码器特征提取器学习方法记忆参数