摘要
本公开提供一种大语言模型训练方法、装置与电子设备。方法包括:通过大语言模型的系统提示词对大语言模型设置控制信息;对大语言模型输入训练数据,获取大语言模型的输出数据,从输出数据中提取N个数字;根据N个数字中携带预设数字标签和数字来源的数字的数量M,得到第一奖励值;在携带预设数字标签和数字来源的M个数字中,根据数字来源确定数字对应的标准值,根据标准值与数字的比对结果得到第二奖励值;采用近端策略优化方式或者组相对策略优化方式对大语言模型进行强化学习训练,其中,根据第一奖励值和第二奖励值形成近端策略优化方式或者组相对策略优化方式中的训练奖励值。本公开实施例可以提高大语言模型生成的数字的准确性。