一种提升多模态大模型细粒度识别性能的检索增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种提升多模态大模型细粒度识别性能的检索增强方法
申请号:CN202511014952
申请日期:2025-07-23
公开号:CN120953566A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开一种提升多模态大模型细粒度识别性能的检索增强方法,充分利用多模态大模型的生成能力,直接基于模型对输入图像的理解生成对应的子类别文本标签。然而,由于现有多模态大模型在视觉细节感知方面仍存在一定局限性,因此进一步提出针对特定领域,构建小型且高质量的外部细粒度视觉‑语言知识库。在推理过程中,借助通用的强大视觉检索器,从该知识库中检索与当前查询图像相关的多模态知识信息,并用于增强多模态大模型的输入提示,从而更有效地引导大模型生成准确的子类别标签。该方法不仅保留了大模型在通用任务中的强大能力,同时通过引入结构化外部知识,有效弥补了其在细粒度辨识任务中的不足。
技术关键词
语言知识库 多模态 标签 图像特征编码 样本 视觉特征提取 细粒度分类 多视角 计算机设备 可读存储介质 分类策略 判别特征 文本 检索图像 聚类算法
系统为您推荐了相关专利信息
特征提取器 训练集 标签 样本 神经网络模型
模型剪枝方法 遥感图像分类 随机梯度下降 传播算法 图像分类模型
路段 时间段 密度 网格 车辆轨迹数据
实体 数据校验方法 局数据 识别算法 关键词
深度强化学习算法 工件 排程方法 解码器 序列