摘要
本申请公开了一种多模态大模型的参数融合方法、装置、设备及介质,首先将通用多模态大模型划分为视觉编码器、语言模型和投影层,接着使用垂直领域数据对通用多模态大模型进行微调得到垂域专业模型,然后从通用多模态大模型和垂域专业模型中分别提取视觉编码器参数、语言模型参数和投影层参数,基于模块参数,按照预设的权重比值融合通用多模态大模型与垂域专业模型的对应参数。根据目标数据集的性能评估结果确定每个模块的最优权重比值组合,最后基于此最优权重比值组合生成融合后的多模态模型。融合后的多模态模型能够在降低模型微调成本的情况下,保证模型的通用能力,同时显著提升其在垂直领域的表现,从而提高模型的应用广度和深度。