大模型训练方法、装置、电子设备、存储介质及产品

申请号：CN202411821263

申请日期：2024-12-11

公开号：CN119761452A

公开日期：2025-04-04

类型：发明专利

摘要

本公开提出了一种大模型训练方法、装置、电子设备、存储介质及产品。所述的方法包括：获取问题文本；对所述问题文本进行编码，得到与所述问题文本对应的第一向量；基于所述第一向量，确定控制网络的第二向量，所述第二向量为所述控制网络的控制条件；基于所述第一向量和所述控制网络的第二向量，确定与所述问题文本对应的输出结果。通过在原有的大模型的基础上，引入控制网络进行联合训练，既保持了原有模型的核心能力，减少训练数据较少的情况下的过拟合风险，又可以对特定任务以特定的控制条件强化模型对该任务的理解能力，解决了大模型在专业领域进行微调困难的问题。

技术关键词

文本模型训练方法网络分类预测模型预测误差模型训练装置电子设备链路编码计算机程序产品处理器通信指令可读存储介质存储器思路专业数据核心