无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)
7709点击    2025-10-20 11:54
Meta提出早期经验(Early Experience)让代理在无奖励下从自身经验中学习:在专家状态上采样替代动作、执行并收集未来状态,将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可规模化的监督。两条路径隐式世界建模(预测状态转移)与自我反思(对比专家与替代并内化约束)——把“避错与纠偏”写进策略。实证覆盖八个真实环境,作为RL热启动还能进一步抬高最终上限。对您而言,现有“专家演示+环境”即可启动:采样、执行、落盘,让可用数据放大5–10倍。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


训练困境:为什么专家数据不顶用


当前的语言智能体主要依赖两种训练范式:


  • 监督微调(Supervised Fine-Tuning, SFT),通过学习人类或专家提供的演示数据来模仿他们的行为;
  • 强化学习(Reinforcement Learning, RL),通过环境中的奖励信号来优化策略。


研究者把真实痛点摊在桌面上:很多网页、工具链和客服场景连奖励都没有!长链交互稍微出错就得重头来过,所以模仿学习成本高还不抗风险,您上线后只要环境多变一点就立刻掉坑。更麻烦的是专家演示覆盖面窄,最多教会模型在“好天气”里走路,而真实世界充满噪声页面、失效的表单控件、缺少重置的沙盒和随时更新的政策提示,回放数据根本构不出模型真正的抗压能力。研究者还强调当前评测基础设施稀缺,很多环境没有可重复的仿真器或可靠奖励,强化学习难以启动,这种“既要训练又没奖励”的死局正是他们希望帮您拆掉的第一堵墙。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


工程与业务代价量化


在无奖励与不可复位环境中,仅一次长链失败就可能触发人工兜底、操作回滚、跨团队排查,综合时延从分钟到小时级,而且回放数据稀疏导致定位困难。对产品而言,这些隐性成本最终体现为更高的SLA风险、更频繁的紧急修复窗口,以及测试环境长期维护费用飙升。早期经验范式直指这些成本源,通过在无奖励下收集“动作→后果”的真实轨迹,把不可控的线上失败前置到训练阶段可控吸收。


场景分层痛点(按业务类型)


  • B端后台/表单:DOM结构频繁变更、鉴权状态丢失、表单校验不一致,导致“看得见点不到”或重复提交。
  • C端网页导航:元素可见性与广告噪声干扰、滚动惰性加载、模糊文本定位,导致点击误差与路径漂移。
  • 客服/工具API:缺参与参数歧义、策略合规校验、异步回执与限流重试,导致错序调用与对话上下文断裂。


Early Experience:让智能体自食其果


研究者干脆引入“Early Experience”范式,让模型先自己动手伸向环境,任何动作带来的后续状态都作为监督信号塞回训练循环,省掉了奖励工程这道坎。您可以把它理解成把数据拆成专家集D_expert与模型滚动集D_rollout:前者提供正确范例,后者记录模型自己触发的成功或失败结果,再通过隐式世界建模和自反思两条路把经验注入策略。这样一来,模仿学习不再是唯一选项,也无需等到全功能的强化学习基础设施完善,您就能在上线前把智能体暴露在真实反馈里,训练像升级版的中间件,衔接人类演示与完全经验驱动的未来。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


语言智能体训练范式演进;“早期经验”作为模仿与强化之间的中间桥梁。


为什么“下一状态”能替代奖励信号


在奖励缺失时,“动作→下一状态”的文本反馈本身就是弱监督:错误弹窗、空结果、权限告警、预算超限等都明确指向“此路径不优”。将这些后果作为预测目标,等价于让模型学习环境的因果反应曲线,从而在训练中形成“避错”与“纠偏”的内在倾向。与人工打分或教师奖励不同,这种监督无需额外标注,且覆盖了专家演示未触达的长尾失败。


采用与禁忌的判断


  • 适用前提:可搭只读沙盒或镜像站;可以记录动作与下一状态;允许批量离线回放;副作用可控或可隔离。
  • 不建议采用:强副作用不可拦截(删改生产数据)、无法隔离/脱敏、法律或条款禁止自动化回放;此时应先补齐环境治理。


数据生成流水线:踩坑也能变成监督


整个流程听着简单,却把关键细节走得很稳:它从专家轨迹出发,又不被专家数据束缚,所有非专家动作都真实执行,最大化捕捉“踩坑瞬间”的上下文。最终得到的滚动数据量级常常比专家集大一个数量级,您再也不用担心样本太单调,而且原始环境反馈会完整保留下来,后续训练就能针对DOM变异、表单报错、API限流提示等真实杂音做针对性吸收。研究者还在采样阶段记录动作的概率、执行时间等元信息,为后面分析采样分支K的收益和代价提供了直接证据。


  • 从专家数据集中拿到状态(s_i, a_i)后,研究者让当前策略在每个状态下再采样K个候选动作(默认10个,也会在消融里尝试2到8个),连同专家动作一起排队测试,并保留候选动作的原始文本以便审计。
  • 每个候选动作都被实际送进环境,记录得到的下一个状态s_i^j,这些响应可能是改动后的DOM、API报错或者任务进度,甚至包括政策文档提示和客服口径,用于训练模型识别何时应该停手或补充参数。
  • 所有三元组(s_i, a_i^j, s_i^j)被整理成滚动数据D_rollout,随后再按需加工成隐式世界建模集或自反思语料,形成一套能直接训练的原料包,并通过采样比例控制和重复去重保证模型不会只学习失败行为。
  • 自反思语料需要额外提示模型比较专家和候选动作的差异,研究者筛掉结论与专家动作不一致的样本,最终留存约1200条可靠反思,用来稳住训练信号。


状态序列化规范(含样例)


  • Web导航:可访问性树片段(role、name、bounds、aria-state)+ 可见文本 + 当前URL + 最近点击路径;对长文本做截断与脱敏(邮箱、手机号、订单号)。
  • 工具/API:结构化JSON(tool、args、status、stdout/stderr片段、时延、重试次数、错误栈摘要)。
  • 客服对话:轮次文本 + 工具调用记录 + 触发的策略条款摘录(ID/标题)。


示例(API日志,字段可裁剪)


{

"tool": "book_flight",

"args": {"from":"SFO","to":"JFK","date":"2025-10-12"},

"status": 400,

"stderr": "invalid date: past",

"latency_ms": 820,

"retries": 1

}


采样与执行的安全边界


  • 只读沙盒/镜像站优先;生产域走金丝雀流量(≤5%),遇到预算/合规违规即熔断回退。
  • 动作白名单与副作用黑名单并存(禁下单/转账/删除),对可疑动作需二次确认或模拟。
  • 速率限制与重试:设定QPS与并发阈值,指数回退,统一失败码表,避免被动触发风控。


批量落盘与数据治理


  • 统一Schema:session_id、timestamp、env_version、tool_version、actor、action、next_state、metrics(status、latency)、privacy_flags。
  • 去重与抽样:同一错误模式限频采样;建议rollout:expert起步3:1,定期抽检样本质量。
  • 脱敏与留痕:PII/账号/订单号哈希化;记录采集来源与用途,满足审计可追溯。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


Early Experience两种实现路径的对比示意:IWM先学状态转移,再回到专家监督;SR通过“对比+解释”内化决策准则。


训练调度:别让额外收益来自“多训练”


我觉得流程里最容易被忽略的是训练调度,研究者明确表示隐式世界建模阶段只跑一轮世界建模目标,然后无缝切换到模仿学习目标,确保总步数与纯模仿完全一致,这样任何收益都来自数据质量而非额外迭代。自反思路线则把反思链路与专家动作拼成同一段文本,让模型先生成“我为什么要选这个动作”的自白,再输出真正动作,保持损失函数仍是标准的下一词预测。所有实验都在最多8张H100上完成,批大小16、学习率1e-5等参数透明公开,您即使只有更小的GPU,也能按同样节奏缩放。


默认配方

  • IWM:IWM预热1轮 → IL微调至总步数与IL基线持平;batch=16、lr=1e-5、rollout:expert=3:1。
  • SR:reflections:expert=1:1起步;模板一致性过滤≥95%;与专家轨迹混合训练同步推进。
  • 早期评估:优先监控“工具错误率”“预算/合规违规率”“会话长度”,再看成功率。


隐式世界建模:策略里长出世界模型


我知道您不想再管理一个额外的仿真器,于是研究者把“世界模型”织进策略本身:直接拿(s_i, a_i^j)去预测s_i^j,用标准的下一词生成损失优化,这样参数θ既负责理解环境转移,又负责最后的动作输出。实践中他们把滚动数据当成一种大规模“环境填充题”,比如网页里试错后的错误提示、ALFWorld里的房间描述、Tau-Bench的API日志都被视作下一状态文本,模型在这个阶段学会区分哪些转移意味着动作无效。等世界建模预热结束再切回专家监督,模型等于先练了一遍环境感知,再补上最佳实践,部署时面对奇葩反馈也不慌,而且他们的消融显示分支数越大收益越稳定,只要注意采样成本即可。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


何时优先IWM

  • 动力学稳定、动作空间封闭或结构化(ALFWorld、ScienceWorld、WebShop)。
  • 目标是减少工具误用与状态误判,提升对页面/环境转移规律的鲁棒性。


实操注意点

  • 分支K与成本线性相关:建议K=3起步,根据队列长度/QPS再扩;避免阻塞业务流量。
  • 训练占比:IWM占比过高可能“会看世界不会做事”,保持与IL的步数对齐,必要时缩短IWM预热。


自反思:决策前先骂醒自己


另一条路线更像团队里资深同事的复盘,模型先对比专家动作和它采样的替代动作,看到实际后果后写出一段“反思”链路,解释为什么专家策略靠谱。提示模板会把状态描述、专家动作、预期结果以及多条候选动作逐一陈列,要求模型按“目标分析→逐项对比→抉择理由”输出内心独白,过程中还特别强调要点出约束条件,比如预算、工具权限或合规提醒。训练时把这些反思文本与最终行动一起做下一词预测,混合专家语料,一旦迁移到新任务,模型脑海里自带“预算别爆”“工具要对号”等经验,逻辑错误的概率明显下降,而这些文本也能在调试时给您提供很好的可解释性线索。以下是系统提示词


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


何时优先SR

  • 约束多、容易错序、动作开放度高(TravelPlanner、Tau-Bench、部分Web/OQA)。
  • 目标是内化“选择原则”,在多候选动作中稳定遵守预算/合规/顺序等规则。


上线策略

  • 训练期保留CoT用于学习;推理期可抑制长CoT或仅输出短rationale,避免影响时延与信息泄露。
  • 反思文本脱敏,屏蔽账号/订单/隐私字段;仅在A/B调试或审计通道可见。


八个实验:跨场景的硬核验证


为了让您心里有数,研究者挑了八个风格完全不同的环境:ALFWorld、ScienceWorld、TravelPlanner这些模拟场景,SearchQA、BFCLv3、Tau-Bench这类多轮工具任务,还有WebShop、WebArena-Lite这样的网页导航,全都覆盖。无论底座是Llama还是Qwen,隐式世界建模在结构化场景里稳步提升成功率,自反思对长链规划和工具组合更猛,平均能把模仿学习的成绩再推高数个百分点,尤其是在旅行规划和科学实验里效果扎实。最终评估还加上跨域测试,哪里有工具缺失、检索变换或者参数遗漏,早期经验方法都能比纯专家模型多扛下一大截,说明它确实抓住了“真实反馈才是硬道理”的核心。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


  • 具身与科学模拟:IWM在ALFWorld、ScienceWorld上分别把成功率从78%左右拉到85%附近,自反思还多贡献2到8个百分点,模型在清洁、加热、制冷等多阶段任务里明显更稳,并且在长路径子任务里减少了“找不到目标物品”的常见死循环。
  • 多轮工具调用:TravelPlanner、BFCLv3、Tau-Bench里,自反思通过对比候选动作的失败结局,显著减少参数遗漏与流程错序,在旅行规划中把成功率从17%附近提高到32%,在Tau-Bench也稳定提升约5个百分点,还能解释清楚每一步为什么要查政策或补充字段。
  • 网页导航与问答:在WebShop、WebArena-Lite及SearchQA中,两种方法都把成功率从个位数拉到两位数,尤其对预算约束与长链检索非常友好,WebShop的得分还能进一步带动后续奖励优化,也证明了模型学会利用错误页面提示来调整筛选策略。


趋势解读


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


  • 结构化/封闭动作环境:IWM涨幅更稳(WebShop约+11~18pp),主要体现在减少误点与表单误用。
  • 长链规划/多约束环境:SR更占优(TravelPlanner约+12~15pp),体现在预算/顺序约束遵守率显著提升。
  • 开放动作空间:两者都有稳定收益(WebArena/QA +1~3.6pp),对检索与点击的“无效探索”有抑制。


业务启示(对应三类环境)

  • 网页购物:IWM+SR共同降低预算违规与无效点击;适合接力RL提升最终成交指标。
  • 客服/工具:SR显著减少缺参与错序,IWM降低接口误用;适合接接口网关与策略引擎。
  • 具身/科学:IWM减少“找不到物品/步骤跑偏”,SR为关键步骤加“自查心智”。


细看实验数据:把表格里的数字翻译出来


我觉得把表格拆开更能看懂价值:在ALFWorld里,Llama-3.2-3B的模仿学习是78.1%,隐式世界建模冲到83.6%,自反思则达到85.9%;科学实验ScienceWorld上,8B模型配自反思能从54.7%跃到68.0%,说明反思文本确实帮助模型在多阶段实验里记住操作顺序。多轮工具环境方面,Qwen-2.5-7B在Tau-Bench通过隐式世界建模提升到38.7%、再用自反思到39.5%,而BFCLv3的缺函数场景则凭借自反思多出5.3个百分点,这些提升直接对应我们常见的参数漏填、工具误选等线上事故。


跨域泛化:敢面对陌生站点和问题


虽然大多数数据来自专家演示,研究者仍然评估了跨域泛化,例如SearchQA把HotpotQA、2WikiMultiHopQA、Bamboogle当OOD集,隐式世界建模和自反思最多追回3个百分点的F1,说明模型学会利用失败反馈调整检索策略。ALFWorld的OOD任务同样受益,隐式世界建模在长路径和未知房间里保持13.3%的成功率,自反思还可以再叠加几分,表明模型记住了“若找不到目标物品就换房间”的原则。WebArena-Lite更有意思,从论坛、GitLab、CMS到地图站点,每个子域的成功率都翻倍,隐式世界建模在Qwen-72B上甚至达17.6%,这对需要覆盖多个业务系统的团队特别重要。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


在WebArena基准上,不同模型规模与训练方式的对比,展示跨域任务下的方法稳健性。


对比其他补救方案:为什么不是长链思维或STaR


研究者还拿长链思维提示和STaR式生成理据做对照,结果真的能给我们敲警钟:在WebShop里强行延长推理链,成功率会从47.3%掉到0%,因为模型缺乏真实反馈支撑,想到最后还是乱点。STaR那套只用专家动作生成理由的方法,留下的样本又少又不稳,在WebShop和ALFWorld分别比原模仿低22个百分点和6个百分点。反观早期经验,全程使用真实执行后的状态作为依据,隐式世界建模和自反思都能让Llama-3.1-8B稳稳涨到58%上下,并且在ALFWorld保持85%以上的水平。


对照与衔接(与RL、数据扩充路线)


  • 相比“延长思维链/生造理据”,早期经验的差异在于“反馈落地+参数内化”,避免了无检验推理带来的漂移。
  • 在相同GRPO配方下,从IWM/SR起步的RL上限更高、曲线更稳,证明它是“从人到奖励”的工程化中继站。


体验后再强化:为什么RL接力更顺


您可能会关心后续还要不要上GRPO之类的强化学习,研究者的答案是“当然要,而且会更顺”:在WebShop、ALFWorld、SearchQA里,从早期经验模型启动的GRPO训练,最后的曲线总是比单纯模仿启动高一截。直接用预训练模型去做RL不仅抖动大,还常常打不开收益,这说明早期经验确实让策略先站得住脚,再去吃奖励红利更安全。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


以IWM/SR为起点接入GRPO,三类环境的RL后上限更高且更稳。


数据预算与分支数:如何在工程里调参


许多朋友最担心成本问题,研究团队给出的消融结果可以直接参考:在WebShop上只用八分之一的专家轨迹配早期经验,就能追平纯模仿学习使用全量数据的成绩,这意味着您可以把稀缺标注投入到关键路径,再让滚动数据补齐长尾。分支数K的实验显示隐式世界建模随着采样分支变多收益更稳,但自反思在K=2~4时最好,太多分支反而因为出现其它成功动作让对比不够锐利,所以上线时可以先采样少量分支做快速迭代。研究者还记录了动作分布和执行日志,为我们未来做异常检测或自动回放提供了现成素材。


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


无奖励也能把Agent练硬,Meta发布早期经验学习,隐式建模+反思(附提示词)


数据预算与分支数消融。少量专家+滚动数据即可追平全量专家;IWM随K增大更稳,SR在中等K更优。


验收指标与止损策略

  • 指标面板:任务成功率、工具错误率、预算/合规违规率、会话长度、OOD恢复率(相对ID损失的回收比例)。
  • 门槛建议:上线前至少优于IL基线+3pp;工具错误率下降≥20%;预算/合规违规下降≥30%。
  • 止损与回滚:IWM占比过高致动作偏离↑→缩短IWM;SR一致性<95%→提纯再训;出现违规回升→回滚至IL基线。


快速落地Checklist

  • 环境:只读沙盒/镜像、会话隔离与reset脚本、速率限制、黑/白名单。
  • 数据:K=3、rollout:expert=3:1;IWM一轮+IL对齐;SR模板生成+一致性过滤≥95%。
  • 训练:bs=16、lr=1e-5;评估脚本覆盖至少两类环境(如Web+工具)。
  • 合规:PII脱敏、审计留痕、站点条款核查;金丝雀≤5%、熔断就地回退。
  • 验收:四项核心指标达标;建立“翻车case库”与自动回放脚本。


结语:把早期经验纳入产品迭代


综合这些证据,我会建议您在产品迭代里先把早期经验当作“上线前的必修课”:一边减少对昂贵标注的依赖,一边建立起面对真实反馈的韧性。配合隐式世界建模和自反思,您的智能体就像提前打过多轮彩排,等到奖励信号终于铺好道路,再接力强化学习也不会手忙脚乱,整个研发周期的风险与成本都能收得住。后续您完全可以把八个环境的评估脚本当作日常回归测试项,持续滚动采样、刷新反思语料,让模型稳步在自我踩坑和正式奖励之间往上走。


文章来自于“Al修猫Prompt”,作者“Al修猫Prompt”。

关键词: AI , 模型训练 , Agent , Meta
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0