摘要
本申请公开了一种自反思智能体的训练方法、装置及存储介质。其中,方法包括:利用以自然语言文本形式记载的多个第一轨迹对第一大语言模型进行监督微调,得到基于大语言模型的第一智能体,其中多个第一轨迹为成功完成相应的第一任务的专家轨迹,并且包括完成相应的第一任务的各个步骤;利用第一智能体和教师模型构建以自然语言文本形式记载且成功完成相应的第二任务的多个第二轨迹,第二轨迹包括完成相应的第二任务的各个步骤以及对第一智能体的错误进行反思的自反思步骤;以及利用第二轨迹对第二大语言模型进行监督微调,得到具有自反思能力的第二智能体。