摘要
本发明涉及人工智能技术领域,尤其涉及一种大型语言模型训练方法及系统。本发明设定证明者、建设性批评者、误导性批评者,建设性批评者的任务是在不直接纠正推理步骤的情况下,协助证明者修改错误预测答案。误导性批评者的任务是误导证明者将正确预测答案更改为错误答案,证明者的任务是在面临误导性批评时保持正确预测答案,面临建设性批评时纠正错误预测答案。通过强化学习共同优化证明者模型、建设性批评者模型、误导性批评者模型的模型参数,将训练好的证明者模型作为目标大型语言模型。本发明有效提高了大型语言模型的推理能力,提升了大型语言模型生成答案精度。