腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

6330点击 2025-10-13 15:45

让智能体自己摸索新方法，还模仿自己的成功经验。

腾讯优图实验室开源强化学习算法——

SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。

主打一个让AI自学成才！

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

该算法首次让大语言模型（LLM）驱动的智能体在无需大量专家示范的情况下，通过“自我模仿+渐进探索”实现熵稳定的学习过程。

在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上，刷新业界最佳成绩，为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△SPEAR算法核心概念示意图

简单来说，SPEAR算法既能大胆尝试新方法，又能靠谱地用已经验证过的有效策略，不用走极端。

下面具体来看。

传统自我模仿学习是什么？

想象一位新手厨师：

1.他先随机尝试做菜，偶尔做出一道“好评爆表”的拿手菜；

2.他把这道菜的做法仔细记录，反复练习，并在此基础上微调口味；

3.下次做菜时，他只复刻那些“好评”操作，不再重复黑暗料理。

自我模仿学习（Self-Imitation Learning，SIL）就是把这套“只抄自己最好的作业”的思路搬进强化学习：

智能体在探索过程中把高回报轨迹存进“成功日记”（Replay Buffer）；

训练时定期回放这些高分片段，额外学习这些优质轨迹；

给自己打“样例补丁”，在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。

自我模仿 2.0：自己产出的“神操作”自己学

熵控崩溃终结者：让智能体“越学越稳”

在使用RL算法优化LLM驱动的智能体时，尝尝面临两大问题：

1）直接搬运传统自我模仿算法带来“熵塌缩”陷阱——过早自信，拒绝探索新解法；

2）多轮交互中由不确定、不熟悉的环境带来的“熵爆炸”——训练发散，无法收敛。

SPEAR提出“课程式调度”来实现分阶段的探索：

前期用内在奖励鼓励“多翻工具箱”，熵值温和上升；

后期启动自模仿学习，只回放高回报轨迹，熵值平滑下降。

实验显示，SPEAR把策略熵牢牢锁在“黄金区间”，实现测试指标的持续增长。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△自我模仿学习在后期提升action-level的策略探索

SPEAR升级经典SIL的具体操作：

1.课程权重——warm-up阶段先轻后重，让模型先“见世面”再“抄作业”。

2.优势重校准——用动态中位数基线淘汰“过时神操作”，减小off-policy偏差；

3.协方差裁剪——把过度优化的token直接mask，防止死记硬背；

一句话：好经验不过期，坏经验不上桌。

内在奖励优化：解决“瞎忙”难题

在稀疏奖励场景里，模型只有“做对给+1，做错给-1”这一终极信号。实验发现，如果不给中间甜头，智能体面对代码报错、搜索无果等负面反馈，会立刻“罢工：

把工具接口当空气，纯靠脑补硬推答案；

数学任务上拒绝写代码，全程文本口算，无法学会结合工具的推理。

于是团队先加了“工具调用奖励”：每成功调用一次工具，就给0.1奖励，上限1分，保证模型“愿意拿起锅铲”。

但是，单纯奖励“多次调用工具”会导致reward hacking副作用—不必要的工具调用，最终输出长度和交互轮次超限而截断，带来优化上的震荡（多奖励之间的竞争）。

SPEAR通过设计内在奖励实现工具奖励衰减：

前200步时，工具调用奖励>0，鼓励学会“写代码、查网页”；

工具调用奖励随步数按cosine衰减，在200步以后置零，让位给最终答案准确率。

在DAPO-Math-17K训练集上，Qwen2.5-32B的AIME25成绩从54.0%提升到60.1%，只用16K上下文就追平32K推理效果。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△自我模仿学习在前期提升skill-level的技能探索

工业级“百宝袋”增强基线：Dr.BoT

结合业界现有的多种agentic RL训练技巧（bag-of-tricks），研究团队给出了组合的新基线Dr.BoT：

七剑合璧：移除KL、去长度归一化、去标准差归一化、clip-higher、超长及空洞回复过滤、高方差组过滤。

兼容GRPO/GiGPO等backbone方法，零成本接入SPEAR。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△SPEAR接入已有训练算法（GRPO/GiGPO）时的数据流向

算法通吃：文本、代码、视觉全能打

在聚焦家居场景下复杂指令理解与分步操作能力的ALFWorld家务模拟任务中，接入SPEAR算法的模型任务成功率达88.9%，创下该任务当前最优水平。

在网页环境导航、商品筛选与决策执行能力的WebShop网页购物测评里，模型能模拟用户完成从浏览商品到下单的全流程，1.5B模型成功率从56.8%飙升至77.5%，提升20.7%，训练时间仅增加5%。

做到了真正的大提升小成本。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△SPEAR在ALFWorld与WebShop上的表现

在AIME24、AIME25奥赛数学任务，模型在代码解释器辅助模式下，分别取得71.0%、61.0%的结题正确率，为该模式下最优结果。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△SPEAR在AIME24/AIME25上的表现

而在测试视觉场景分析与空间路径规划能力的Sokoban视觉推箱子任务中，模型不仅取得86.7%的成功率，还较此前公开的最佳性能提升19.6%。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△SPEAR在Sokoban小游戏上的表现

下图展示了智能体在训练初期“无目的探索”状态（a）和训练后期能熟练掌握推箱子策略（b）的对比。

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

△VLM驱动的智能体成功学会推箱子策略

无论纯文本工具调用场景还是视觉-语言混合的游戏任务，SPEAR均能做到即插即用。

SPEAR算法框架基于开源社区贡献的vLLM +VeRL，1.5B模型1小时上手，32B模型一周出模，让智能体“自学成才”。

目前，SPEAR代码与模型已上架GitHub&HuggingFace，感兴趣的朋友可以体验一把～

论文地址：https://arxiv.org/abs/2509.22601

代码：https://github.com/TencentYoutuResearch/SPEAR

模型：https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8

文章来自于微信公众号“量子位”。

关键词: AI , 模型训练 , SPEAR , 腾讯优图

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner