Meta提出早期经验(Early Experience)让代理在无奖励下从自身经验中学习:在专家状态上采样替代动作、执行并收集未来状态,将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可规模化的监督。两条路径隐式世界建模(预测状态转移)与自我反思(对比专家与替代并内化约束)——把“避错与纠偏”写进策略。实证覆盖八个真实环境,作为RL热启动还能进一步抬高最终上限。对您而言,现有“专家演示+环境”即可启动:采样、执行、落盘,让可用数据放大5–10倍。
当前的语言智能体主要依赖两种训练范式:
研究者把真实痛点摊在桌面上:很多网页、工具链和客服场景连奖励都没有!长链交互稍微出错就得重头来过,所以模仿学习成本高还不抗风险,您上线后只要环境多变一点就立刻掉坑。更麻烦的是专家演示覆盖面窄,最多教会模型在“好天气”里走路,而真实世界充满噪声页面、失效的表单控件、缺少重置的沙盒和随时更新的政策提示,回放数据根本构不出模型真正的抗压能力。研究者还强调当前评测基础设施稀缺,很多环境没有可重复的仿真器或可靠奖励,强化学习难以启动,这种“既要训练又没奖励”的死局正是他们希望帮您拆掉的第一堵墙。
在无奖励与不可复位环境中,仅一次长链失败就可能触发人工兜底、操作回滚、跨团队排查,综合时延从分钟到小时级,而且回放数据稀疏导致定位困难。对产品而言,这些隐性成本最终体现为更高的SLA风险、更频繁的紧急修复窗口,以及测试环境长期维护费用飙升。早期经验范式直指这些成本源,通过在无奖励下收集“动作→后果”的真实轨迹,把不可控的线上失败前置到训练阶段可控吸收。
研究者干脆引入“Early Experience”范式,让模型先自己动手伸向环境,任何动作带来的后续状态都作为监督信号塞回训练循环,省掉了奖励工程这道坎。您可以把它理解成把数据拆成专家集D_expert与模型滚动集D_rollout:前者提供正确范例,后者记录模型自己触发的成功或失败结果,再通过隐式世界建模和自反思两条路把经验注入策略。这样一来,模仿学习不再是唯一选项,也无需等到全功能的强化学习基础设施完善,您就能在上线前把智能体暴露在真实反馈里,训练像升级版的中间件,衔接人类演示与完全经验驱动的未来。
语言智能体训练范式演进;“早期经验”作为模仿与强化之间的中间桥梁。
在奖励缺失时,“动作→下一状态”的文本反馈本身就是弱监督:错误弹窗、空结果、权限告警、预算超限等都明确指向“此路径不优”。将这些后果作为预测目标,等价于让模型学习环境的因果反应曲线,从而在训练中形成“避错”与“纠偏”的内在倾向。与人工打分或教师奖励不同,这种监督无需额外标注,且覆盖了专家演示未触达的长尾失败。
整个流程听着简单,却把关键细节走得很稳:它从专家轨迹出发,又不被专家数据束缚,所有非专家动作都真实执行,最大化捕捉“踩坑瞬间”的上下文。最终得到的滚动数据量级常常比专家集大一个数量级,您再也不用担心样本太单调,而且原始环境反馈会完整保留下来,后续训练就能针对DOM变异、表单报错、API限流提示等真实杂音做针对性吸收。研究者还在采样阶段记录动作的概率、执行时间等元信息,为后面分析采样分支K的收益和代价提供了直接证据。
示例(API日志,字段可裁剪)
{
"tool": "book_flight",
"args": {"from":"SFO","to":"JFK","date":"2025-10-12"},
"status": 400,
"stderr": "invalid date: past",
"latency_ms": 820,
"retries": 1
}
Early Experience两种实现路径的对比示意:IWM先学状态转移,再回到专家监督;SR通过“对比+解释”内化决策准则。
我觉得流程里最容易被忽略的是训练调度,研究者明确表示隐式世界建模阶段只跑一轮世界建模目标,然后无缝切换到模仿学习目标,确保总步数与纯模仿完全一致,这样任何收益都来自数据质量而非额外迭代。自反思路线则把反思链路与专家动作拼成同一段文本,让模型先生成“我为什么要选这个动作”的自白,再输出真正动作,保持损失函数仍是标准的下一词预测。所有实验都在最多8张H100上完成,批大小16、学习率1e-5等参数透明公开,您即使只有更小的GPU,也能按同样节奏缩放。
我知道您不想再管理一个额外的仿真器,于是研究者把“世界模型”织进策略本身:直接拿(s_i, a_i^j)去预测s_i^j,用标准的下一词生成损失优化,这样参数θ既负责理解环境转移,又负责最后的动作输出。实践中他们把滚动数据当成一种大规模“环境填充题”,比如网页里试错后的错误提示、ALFWorld里的房间描述、Tau-Bench的API日志都被视作下一状态文本,模型在这个阶段学会区分哪些转移意味着动作无效。等世界建模预热结束再切回专家监督,模型等于先练了一遍环境感知,再补上最佳实践,部署时面对奇葩反馈也不慌,而且他们的消融显示分支数越大收益越稳定,只要注意采样成本即可。
另一条路线更像团队里资深同事的复盘,模型先对比专家动作和它采样的替代动作,看到实际后果后写出一段“反思”链路,解释为什么专家策略靠谱。提示模板会把状态描述、专家动作、预期结果以及多条候选动作逐一陈列,要求模型按“目标分析→逐项对比→抉择理由”输出内心独白,过程中还特别强调要点出约束条件,比如预算、工具权限或合规提醒。训练时把这些反思文本与最终行动一起做下一词预测,混合专家语料,一旦迁移到新任务,模型脑海里自带“预算别爆”“工具要对号”等经验,逻辑错误的概率明显下降,而这些文本也能在调试时给您提供很好的可解释性线索。以下是系统提示词
为了让您心里有数,研究者挑了八个风格完全不同的环境:ALFWorld、ScienceWorld、TravelPlanner这些模拟场景,SearchQA、BFCLv3、Tau-Bench这类多轮工具任务,还有WebShop、WebArena-Lite这样的网页导航,全都覆盖。无论底座是Llama还是Qwen,隐式世界建模在结构化场景里稳步提升成功率,自反思对长链规划和工具组合更猛,平均能把模仿学习的成绩再推高数个百分点,尤其是在旅行规划和科学实验里效果扎实。最终评估还加上跨域测试,哪里有工具缺失、检索变换或者参数遗漏,早期经验方法都能比纯专家模型多扛下一大截,说明它确实抓住了“真实反馈才是硬道理”的核心。
我觉得把表格拆开更能看懂价值:在ALFWorld里,Llama-3.2-3B的模仿学习是78.1%,隐式世界建模冲到83.6%,自反思则达到85.9%;科学实验ScienceWorld上,8B模型配自反思能从54.7%跃到68.0%,说明反思文本确实帮助模型在多阶段实验里记住操作顺序。多轮工具环境方面,Qwen-2.5-7B在Tau-Bench通过隐式世界建模提升到38.7%、再用自反思到39.5%,而BFCLv3的缺函数场景则凭借自反思多出5.3个百分点,这些提升直接对应我们常见的参数漏填、工具误选等线上事故。
虽然大多数数据来自专家演示,研究者仍然评估了跨域泛化,例如SearchQA把HotpotQA、2WikiMultiHopQA、Bamboogle当OOD集,隐式世界建模和自反思最多追回3个百分点的F1,说明模型学会利用失败反馈调整检索策略。ALFWorld的OOD任务同样受益,隐式世界建模在长路径和未知房间里保持13.3%的成功率,自反思还可以再叠加几分,表明模型记住了“若找不到目标物品就换房间”的原则。WebArena-Lite更有意思,从论坛、GitLab、CMS到地图站点,每个子域的成功率都翻倍,隐式世界建模在Qwen-72B上甚至达17.6%,这对需要覆盖多个业务系统的团队特别重要。
在WebArena基准上,不同模型规模与训练方式的对比,展示跨域任务下的方法稳健性。
研究者还拿长链思维提示和STaR式生成理据做对照,结果真的能给我们敲警钟:在WebShop里强行延长推理链,成功率会从47.3%掉到0%,因为模型缺乏真实反馈支撑,想到最后还是乱点。STaR那套只用专家动作生成理由的方法,留下的样本又少又不稳,在WebShop和ALFWorld分别比原模仿低22个百分点和6个百分点。反观早期经验,全程使用真实执行后的状态作为依据,隐式世界建模和自反思都能让Llama-3.1-8B稳稳涨到58%上下,并且在ALFWorld保持85%以上的水平。
您可能会关心后续还要不要上GRPO之类的强化学习,研究者的答案是“当然要,而且会更顺”:在WebShop、ALFWorld、SearchQA里,从早期经验模型启动的GRPO训练,最后的曲线总是比单纯模仿启动高一截。直接用预训练模型去做RL不仅抖动大,还常常打不开收益,这说明早期经验确实让策略先站得住脚,再去吃奖励红利更安全。
以IWM/SR为起点接入GRPO,三类环境的RL后上限更高且更稳。
许多朋友最担心成本问题,研究团队给出的消融结果可以直接参考:在WebShop上只用八分之一的专家轨迹配早期经验,就能追平纯模仿学习使用全量数据的成绩,这意味着您可以把稀缺标注投入到关键路径,再让滚动数据补齐长尾。分支数K的实验显示隐式世界建模随着采样分支变多收益更稳,但自反思在K=2~4时最好,太多分支反而因为出现其它成功动作让对比不够锐利,所以上线时可以先采样少量分支做快速迭代。研究者还记录了动作分布和执行日志,为我们未来做异常检测或自动回放提供了现成素材。
数据预算与分支数消融。少量专家+滚动数据即可追平全量专家;IWM随K增大更稳,SR在中等K更优。
综合这些证据,我会建议您在产品迭代里先把早期经验当作“上线前的必修课”:一边减少对昂贵标注的依赖,一边建立起面对真实反馈的韧性。配合隐式世界建模和自反思,您的智能体就像提前打过多轮彩排,等到奖励信号终于铺好道路,再接力强化学习也不会手忙脚乱,整个研发周期的风险与成本都能收得住。后续您完全可以把八个环境的评估脚本当作日常回归测试项,持续滚动采样、刷新反思语料,让模型稳步在自我踩坑和正式奖励之间往上走。
文章来自于“Al修猫Prompt”,作者“Al修猫Prompt”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0