摘要
本公开公开了图像识别模型的训练方法及装置、电子设备和存储介质,涉及特征学习技术领域,主要技术方案包括:获取训练用问答数据;根据训练用问答数据及训练用图像数据对视觉通用模型进行训练,得到视觉通用模型生成的对训练用问答数据的预测答案;根据标准答案及预测答案计算视觉通用模型的损失函数,并根据损失函数对视觉通用模型进行参数调整。通过多种任务统一为问题‑答案数据对的方案,通过语言接口对多种视觉任务数据进行统一的训练,从而得到一种新的视觉通用模型,网络具有更好的视觉‑语言空间对齐能力,并且能够更好地处理和捕捉各种层级的视觉信息,能够有效提升主流多模态大语言模型的能力和效果。