增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置

申请号：CN202510804247

申请日期：2025-06-16

公开号：CN120318606B

公开日期：2025-09-23

类型：发明专利

摘要

公开了一种增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置，所述方法包括：获取目标检测数据集和图文对数据集；对于两个数据集中每个图像，将当前图像输入视觉编码器得到第一视觉特征；将第一视觉特征输入增强编码模块得到第二视觉特征；若当前图像属于目标检测数据集，基于第二视觉特征对当前图像进行目标检测处理得到预测结果；基于预测结果和第一真实标签确定的检测损失，调整视觉编码器和增强编码模块中参数；若当前图像属于图文对数据集，将第二视觉特征和文本问题输入大语言模型得到预估答案；基于预估答案和第二真实标签确定的第一生成损失，调整视觉编码器、增强编码模块和大语言模型的参数。

技术关键词

视觉特征编码模块大语言模型多模态检测损失图文文本答案图像处理方法标签数据参数图像投影对象前馈神经网络输入解码器图像处理装置指令计算机程序产品