摘要
本说明书实施例提供了大语言模型的训练方法及装置。该方法包括:获取训练样本集,其中的各训练样本均包括问题、偏好回答和非偏好回答,并且部分训练样本各自包括的偏好回答和非偏好回答相同;对于训练样本集中任意的第一样本,将其中的第一问题作为模型输入,在获得参考模型和待优化的大语言模型各自生成第一样本中的第一偏好回答的第一概率后,根据第一概率确定针对第一偏好回答的第一奖励值;确定针对第一样本中的第一非偏好回答的第二奖励值,其响应于确定第一偏好回答和第一非偏好回答相同而为0;基于训练损失更新大语言模型的参数,该训练损失与第一奖励值和第二奖励值的差值负相关。