大语言模型的训练方法、推理方法、装置、设备及存储介质

申请号：CN202410805230

申请日期：2024-06-20

公开号：CN118673325A

公开日期：2024-09-20

类型：发明专利

摘要

本公开提供了大语言模型的训练方法、推理方法、装置、设备及存储介质，涉及数据处理领域，尤其涉及人工智能、大数据等技术领域。具体实现方案为：基于目标样本集合中的至少部分样本数据，对预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块之一进行预训练，以分阶段得到预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块；在继承预训练完成的预设视觉投影模块、预设视觉语言专家模块、预设分割专家模块的训练结果的情况下，基于所述目标样本集合，对预设多专家‑大语言模型进行参数微调，以得到目标多专家‑大语言模型；所述目标多专家‑大语言模型至少包括：目标视觉投影模块，具有视觉语言专家能力和分割专家能力的目标混合专家模块。

技术关键词

投影模块大语言模型样本视觉前馈神经网络文本图像分割参数注意力投影特征解码模块编码模块像素数据编码特征推理方法分阶段