腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入
6330点击    2025-10-13 15:45

让智能体自己摸索新方法,还模仿自己的成功经验。


腾讯优图实验室开源强化学习算法——


SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。


主打一个让AI自学成才!


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


该算法首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过“自我模仿+渐进探索”实现熵稳定的学习过程。


在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


SPEAR算法核心概念示意图


简单来说,SPEAR算法既能大胆尝试新方法,又能靠谱地用已经验证过的有效策略,不用走极端。


下面具体来看。


传统自我模仿学习是什么?


想象一位新手厨师:


1.他先随机尝试做菜,偶尔做出一道“好评爆表”的拿手菜;


2.他把这道菜的做法仔细记录,反复练习,并在此基础上微调口味;


3.下次做菜时,他只复刻那些“好评”操作,不再重复黑暗料理。


自我模仿学习(Self-Imitation Learning,SIL)就是把这套“只抄自己最好的作业”的思路搬进强化学习:


  • 智能体在探索过程中把高回报轨迹存进“成功日记”(Replay Buffer);


  • 训练时定期回放这些高分片段,额外学习这些优质轨迹;


  • 给自己打“样例补丁”,在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。


自我模仿 2.0:自己产出的“神操作”自己学


熵控崩溃终结者:让智能体“越学越稳”


在使用RL算法优化LLM驱动的智能体时,尝尝面临两大问题:


1)直接搬运传统自我模仿算法带来“熵塌缩”陷阱——过早自信,拒绝探索新解法;


2)多轮交互中由不确定、不熟悉的环境带来的“熵爆炸”——训练发散,无法收敛。


SPEAR提出“课程式调度”来实现分阶段的探索:


  • 前期用内在奖励鼓励“多翻工具箱”,熵值温和上升;


  • 后期启动自模仿学习,只回放高回报轨迹,熵值平滑下降。


实验显示,SPEAR把策略熵牢牢锁在“黄金区间”,实现测试指标的持续增长。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

自我模仿学习在后期提升action-level的策略探索


SPEAR升级经典SIL的具体操作:


1.课程权重——warm-up阶段先轻后重,让模型先“见世面”再“抄作业”。


2.优势重校准——用动态中位数基线淘汰“过时神操作”,减小off-policy偏差;


3.协方差裁剪——把过度优化的token直接mask,防止死记硬背;


一句话:好经验不过期,坏经验不上桌。


内在奖励优化:解决“瞎忙”难题


在稀疏奖励场景里,模型只有“做对给+1,做错给-1”这一终极信号。实验发现,如果不给中间甜头,智能体面对代码报错、搜索无果等负面反馈,会立刻“罢工:


  • 把工具接口当空气,纯靠脑补硬推答案;


  • 数学任务上拒绝写代码,全程文本口算,无法学会结合工具的推理。


于是团队先加了“工具调用奖励”:每成功调用一次工具,就给0.1奖励,上限1分,保证模型“愿意拿起锅铲”。


但是,单纯奖励“多次调用工具”会导致reward hacking副作用—不必要的工具调用,最终输出长度和交互轮次超限而截断,带来优化上的震荡(多奖励之间的竞争)。


SPEAR通过设计内在奖励实现工具奖励衰减:


  • 前200步时,工具调用奖励>0,鼓励学会“写代码、查网页”;


  • 工具调用奖励随步数按cosine衰减,在200步以后置零,让位给最终答案准确率。


在DAPO-Math-17K训练集上,Qwen2.5-32B的AIME25成绩从54.0%提升到60.1%,只用16K上下文就追平32K推理效果。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


自我模仿学习在前期提升skill-level的技能探索


工业级“百宝袋”增强基线:Dr.BoT


结合业界现有的多种agentic RL训练技巧(bag-of-tricks),研究团队给出了组合的新基线Dr.BoT


  • 七剑合璧:移除KL、去长度归一化、去标准差归一化、clip-higher、超长及空洞回复过滤、高方差组过滤。


  • 兼容GRPO/GiGPO等backbone方法,零成本接入SPEAR。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


SPEAR接入已有训练算法(GRPO/GiGPO)时的数据流向


算法通吃:文本、代码、视觉全能打


在聚焦家居场景下复杂指令理解与分步操作能力的ALFWorld家务模拟任务中,接入SPEAR算法的模型任务成功率达88.9%,创下该任务当前最优水平。


在网页环境导航、商品筛选与决策执行能力的WebShop网页购物测评里,模型能模拟用户完成从浏览商品到下单的全流程,1.5B模型成功率从56.8%飙升至77.5%,提升20.7%,训练时间仅增加5%。


做到了真正的大提升小成本。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


SPEAR在ALFWorld与WebShop上的表现


在AIME24、AIME25奥赛数学任务,模型在代码解释器辅助模式下,分别取得71.0%、61.0%的结题正确率,为该模式下最优结果。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


SPEAR在AIME24/AIME25上的表现


而在测试视觉场景分析与空间路径规划能力的Sokoban视觉推箱子任务中,模型不仅取得86.7%的成功率,还较此前公开的最佳性能提升19.6%。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


SPEAR在Sokoban小游戏上的表现


下图展示了智能体在训练初期“无目的探索”状态(a)和训练后期能熟练掌握推箱子策略(b)的对比。


腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入


VLM驱动的智能体成功学会推箱子策略


无论纯文本工具调用场景还是视觉-语言混合的游戏任务,SPEAR均能做到即插即用。


SPEAR算法框架基于开源社区贡献的vLLM +VeRL,1.5B模型1小时上手,32B模型一周出模,让智能体“自学成才”。


目前,SPEAR代码与模型已上架GitHub&HuggingFace,感兴趣的朋友可以体验一把~


论文地址:https://arxiv.org/abs/2509.22601


代码:https://github.com/TencentYoutuResearch/SPEAR


模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8


文章来自于微信公众号“量子位”。


关键词: AI , 模型训练 , SPEAR , 腾讯优图
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner