多模态大模型的训练、图像分类方法及装置、智能体、设备、介质和产品

申请号：CN202411863896

申请日期：2024-12-16

公开号：CN119693713A

公开日期：2025-03-25

类型：发明专利

摘要

本公开提供了一种多模态大模型的训练、图像分类方法及装置、智能体、设备、介质和产品，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于多模态识别和分类场景。该多模态大模型的训练方法包括：获取训练样本集，其中，训练样本集包括多个训练样本对，每个训练样本对包括样本图像、样本文本和用于样本图像的类别描述；将每个训练样本对分别输入至待训练的大模型，得到每个样本图像各自的类别信息；以及，利用每个训练样本对各自的类别描述和类别信息，训练待训练的大模型，得到用于图像分类的多模态大模型。

技术关键词

多模态训练样本集融合特征文本图像特征提取图像分类方法特征提取模块大语言模型标记输入模块图像分类装置分类场景人工智能技术计算机程序产品处理器计算机视觉