让智能体自己摸索新方法,还模仿自己的成功经验。
腾讯优图实验室开源强化学习算法——
SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。
主打一个让AI自学成才!
该算法首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过“自我模仿+渐进探索”实现熵稳定的学习过程。
在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。
△SPEAR算法核心概念示意图
简单来说,SPEAR算法既能大胆尝试新方法,又能靠谱地用已经验证过的有效策略,不用走极端。
下面具体来看。
想象一位新手厨师:
1.他先随机尝试做菜,偶尔做出一道“好评爆表”的拿手菜;
2.他把这道菜的做法仔细记录,反复练习,并在此基础上微调口味;
3.下次做菜时,他只复刻那些“好评”操作,不再重复黑暗料理。
自我模仿学习(Self-Imitation Learning,SIL)就是把这套“只抄自己最好的作业”的思路搬进强化学习:
在使用RL算法优化LLM驱动的智能体时,尝尝面临两大问题:
1)直接搬运传统自我模仿算法带来“熵塌缩”陷阱——过早自信,拒绝探索新解法;
2)多轮交互中由不确定、不熟悉的环境带来的“熵爆炸”——训练发散,无法收敛。
SPEAR提出“课程式调度”来实现分阶段的探索:
实验显示,SPEAR把策略熵牢牢锁在“黄金区间”,实现测试指标的持续增长。
△自我模仿学习在后期提升action-level的策略探索
SPEAR升级经典SIL的具体操作:
1.课程权重——warm-up阶段先轻后重,让模型先“见世面”再“抄作业”。
2.优势重校准——用动态中位数基线淘汰“过时神操作”,减小off-policy偏差;
3.协方差裁剪——把过度优化的token直接mask,防止死记硬背;
一句话:好经验不过期,坏经验不上桌。
在稀疏奖励场景里,模型只有“做对给+1,做错给-1”这一终极信号。实验发现,如果不给中间甜头,智能体面对代码报错、搜索无果等负面反馈,会立刻“罢工:
于是团队先加了“工具调用奖励”:每成功调用一次工具,就给0.1奖励,上限1分,保证模型“愿意拿起锅铲”。
但是,单纯奖励“多次调用工具”会导致reward hacking副作用—不必要的工具调用,最终输出长度和交互轮次超限而截断,带来优化上的震荡(多奖励之间的竞争)。
SPEAR通过设计内在奖励实现工具奖励衰减:
在DAPO-Math-17K训练集上,Qwen2.5-32B的AIME25成绩从54.0%提升到60.1%,只用16K上下文就追平32K推理效果。
△自我模仿学习在前期提升skill-level的技能探索
结合业界现有的多种agentic RL训练技巧(bag-of-tricks),研究团队给出了组合的新基线Dr.BoT:
△SPEAR接入已有训练算法(GRPO/GiGPO)时的数据流向
在聚焦家居场景下复杂指令理解与分步操作能力的ALFWorld家务模拟任务中,接入SPEAR算法的模型任务成功率达88.9%,创下该任务当前最优水平。
在网页环境导航、商品筛选与决策执行能力的WebShop网页购物测评里,模型能模拟用户完成从浏览商品到下单的全流程,1.5B模型成功率从56.8%飙升至77.5%,提升20.7%,训练时间仅增加5%。
做到了真正的大提升小成本。
△SPEAR在ALFWorld与WebShop上的表现
在AIME24、AIME25奥赛数学任务,模型在代码解释器辅助模式下,分别取得71.0%、61.0%的结题正确率,为该模式下最优结果。
△SPEAR在AIME24/AIME25上的表现
而在测试视觉场景分析与空间路径规划能力的Sokoban视觉推箱子任务中,模型不仅取得86.7%的成功率,还较此前公开的最佳性能提升19.6%。
△SPEAR在Sokoban小游戏上的表现
下图展示了智能体在训练初期“无目的探索”状态(a)和训练后期能熟练掌握推箱子策略(b)的对比。
△VLM驱动的智能体成功学会推箱子策略
无论纯文本工具调用场景还是视觉-语言混合的游戏任务,SPEAR均能做到即插即用。
SPEAR算法框架基于开源社区贡献的vLLM +VeRL,1.5B模型1小时上手,32B模型一周出模,让智能体“自学成才”。
目前,SPEAR代码与模型已上架GitHub&HuggingFace,感兴趣的朋友可以体验一把~
论文地址:https://arxiv.org/abs/2509.22601
代码:https://github.com/TencentYoutuResearch/SPEAR
模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8
文章来自于微信公众号“量子位”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner