增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置
申请号:CN202510804247
申请日期:2025-06-16
公开号:CN120318606B
公开日期:2025-09-23
类型:发明专利
摘要
公开了一种增强多模态大模型的细粒度感知能力的方法、基于多模态大模型的图像处理方法及装置,所述方法包括:获取目标检测数据集和图文对数据集;对于两个数据集中每个图像,将当前图像输入视觉编码器得到第一视觉特征;将第一视觉特征输入增强编码模块得到第二视觉特征;若当前图像属于目标检测数据集,基于第二视觉特征对当前图像进行目标检测处理得到预测结果;基于预测结果和第一真实标签确定的检测损失,调整视觉编码器和增强编码模块中参数;若当前图像属于图文对数据集,将第二视觉特征和文本问题输入大语言模型得到预估答案;基于预估答案和第二真实标签确定的第一生成损失,调整视觉编码器、增强编码模块和大语言模型的参数。
技术关键词
视觉特征 编码模块 大语言模型 多模态 检测损失 图文 文本 答案 图像处理方法 标签 数据 参数 图像投影 对象 前馈神经网络 输入解码器 图像处理装置 指令 计算机程序产品