大语言模型的训练方法、装置、电子设备以及存储介质

申请号：CN202510978405

申请日期：2025-07-16

公开号：CN120851106A

公开日期：2025-10-28

类型：发明专利

摘要

本申请提供了一种大语言模型的训练方法、装置、电子设备以及存储介质，涉及人工智能技术领域。该方法包括：将样本提示输入大语言模型，得到大语言模型输出的响应文本；将响应文本输入训练完成的多头部奖励模型，得到训练完成的多头部奖励模型输出的多个预测奖励均值和多个预测奖励方差，多头部奖励模型包括多个奖励模型头部，每个奖励模型头部用于输出一个预测奖励均值和一个预测奖励方差；基于多个预测奖励方差，从多个预测奖励均值中选取目标奖励均值，目标奖励均值的置信度高于其他预测奖励均值；将目标奖励均值作为奖励信号以训练大语言模型。该方法能够提升大语言模型训练的可靠性和稳定性。

技术关键词

大语言模型文本样本数据电子设备特征提取模块人工智能技术计算机标签基础训练装置处理器指令信号可读存储介质线性曲线程序存储器

系统为您推荐了相关专利信息

图像处理方法、装置、电子设备及存储介质

序列文本融合特征多模态解码网络

一种内容的生成方法、系统及计算机可读存储介质

大语言模型专业知识库生成方法模版数据处理工具

病变区域识别方法、系统及电子设备

拉曼光谱采集技术区域识别方法卷积神经网络模型组织计算机可执行指令

一种目标对象出行时间的预测方法、装置及介质

时间序列模型对象模式预测装置数据

一种基于多传感器的玉米抽雄机故障检测方法及系统

玉米抽雄机特征向量值故障检测方法多传感器地理信息数据