摘要
本发明公开一种提升多模态大模型细粒度识别性能的检索增强方法,充分利用多模态大模型的生成能力,直接基于模型对输入图像的理解生成对应的子类别文本标签。然而,由于现有多模态大模型在视觉细节感知方面仍存在一定局限性,因此进一步提出针对特定领域,构建小型且高质量的外部细粒度视觉‑语言知识库。在推理过程中,借助通用的强大视觉检索器,从该知识库中检索与当前查询图像相关的多模态知识信息,并用于增强多模态大模型的输入提示,从而更有效地引导大模型生成准确的子类别标签。该方法不仅保留了大模型在通用任务中的强大能力,同时通过引入结构化外部知识,有效弥补了其在细粒度辨识任务中的不足。