摘要
本申请提供了一种大语言模型的训练方法、装置、电子设备以及存储介质,涉及人工智能技术领域。该方法包括:将样本提示输入大语言模型,得到大语言模型输出的响应文本;将响应文本输入训练完成的多头部奖励模型,得到训练完成的多头部奖励模型输出的多个预测奖励均值和多个预测奖励方差,多头部奖励模型包括多个奖励模型头部,每个奖励模型头部用于输出一个预测奖励均值和一个预测奖励方差;基于多个预测奖励方差,从多个预测奖励均值中选取目标奖励均值,目标奖励均值的置信度高于其他预测奖励均值;将目标奖励均值作为奖励信号以训练大语言模型。该方法能够提升大语言模型训练的可靠性和稳定性。