自反思智能体的训练方法、装置及存储介质

申请号：CN202411446910

申请日期：2024-10-16

公开号：CN119476400A

公开日期：2025-02-18

类型：发明专利

摘要

本申请公开了一种自反思智能体的训练方法、装置及存储介质。其中，方法包括：利用以自然语言文本形式记载的多个第一轨迹对第一大语言模型进行监督微调，得到基于大语言模型的第一智能体，其中多个第一轨迹为成功完成相应的第一任务的专家轨迹，并且包括完成相应的第一任务的各个步骤；利用第一智能体和教师模型构建以自然语言文本形式记载且成功完成相应的第二任务的多个第二轨迹，第二轨迹包括完成相应的第二任务的各个步骤以及对第一智能体的错误进行反思的自反思步骤；以及利用第二轨迹对第二大语言模型进行监督微调，得到具有自反思能力的第二智能体。

技术关键词

大语言模型轨迹自然语言文本历史交互信息教师训练装置指令处理器标识模板模块存储器程序