Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL
8854点击    2025-11-18 15:11

当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。


在过去很长一段时间里,这个词几乎等同于 RLHF(人类反馈强化学习)一种用于"对齐"的技术,它教会模型拒绝有害问题、生成更符合人类偏好的回答。


但最近一年,情况变得微妙起来。


OpenAI的o1/o3、DeepSeek-R1爆火了。它们被称为"推理模型",似乎比以往的GPT更"聪明"。紧接着Kimi-Researcher也火了,它能自己搜索、阅读几十篇文献、写出完整报告。很多人会说:"这不就是模型变强了吗?或者给模型加了搜索功能?这和Agent有什么关系?"


这个疑问,恰恰触及了当前AI领域最核心、也最容易被误解的一个问题:


o1、R1 这些"推理模型",它们到底是"更聪明的LLM",还是已经跨越了某个界限,成为了某种"智能体"?它们背后的RL训练,和传统的RLHF,究竟是不是一回事?


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


牛津大学9月份发布了一份综合了500多篇近期著作的重磅综述 《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》 给出了响亮而清晰的回答:它们不是一回事。而且,o1、R1这些模型,从技术本质上看,已经是"智能体"了。尽管它们看起来"只是在对话"。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


这篇综述的核心价值,就在于它首次为这个正在爆发的新领域进行了严格的“划界”。研究者们在引言中明确了本文的“研究范围”(Scope):


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


  • 它“不”研究什么? 它“明确排除”(Out of scope)了“RL 用于人类价值对齐”(例如 RLHF) 和“RL 用于提升静态基准分数”。
  • 它“研究”什么? 它的“主要焦点”(Primary focus)是:“RL 如何赋能(empowers)LLM 智能体在动态环境(dynamic environments)中的能力”


这篇综述将这个新领域定义为“智能体强化学习”(Agentic RL),一个将LLM从“被动生成器”转变为“自主决策者”的全新范式。本文将继昨天的《LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这为您深度剖析这份奠基性的综述,揭示 Agentic RL 是如何系统性地构建规划、工具使用、记忆和反思等核心智能的。


理论基石:Agentic RL 究竟“新”在哪里?


这篇综述的第一个重大贡献,就是在理论上严格区分了“传统 LLM-RL”和“Agentic RL”


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


我们熟知的 RLHF(人类反馈强化学习)或 DPO(直接偏好优化)属于前者,它们的目标是“对齐”模型的单次输出。而 Agentic RL 的目标,是训练一个能在动态环境中持续决策的“策略”。


论文通过马尔可夫决策过程(MDP)的形式化语言,精准地揭示了两者在“世界模型”上的根本差异。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


传统 LLM-RL:退化的“单步”决策


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


核心局限:这种范式本质上仍是“序列建模”,它优化的是“输出质量”,而不是“决策过程”。它无法处理需要多步骤交互、使用工具或适应环境变化的任务。


Agentic RL:时序扩展的“多步”交互


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


范式飞跃:Agentic RL 不再是“对齐”一个静态答案,而是在训练一个自主的“策略”。这个策略必须学会在一个充满不确定性的动态世界中,通过一系列思考、行动和观察,来完成一个长期的目标。这正是“智能体”的真正含义。


算法演进:驱动智能体的“优化引擎”


在区分了理论模型后,综述深入探讨了实现 Agentic RL 的核心算法。虽然 PPO、DPO等算法在传统LLM-RL中被广泛使用,但它们在 Agentic RL 范式下,其功能和挑战发生了质的变化。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


  • PPO (近端策略优化)
  • 作为 RLHF 的“功勋算法”,PPO 及其变体在 Agentic RL 中依然是主力。
  • 它通过一个“Clipped Objective”来限制策略更新的步长,确保训练的稳定性。
  • 核心挑战:PPO 依赖于一个单独的、与策略模型同样大小的“Critic”网络(价值函数),这使得训练参数量翻倍,计算开销巨大。
  • DPO (直接偏好优化)
  • DPO 是一个“革命性”的转变,它完全绕过了奖励模型和 Critic 网络
  • 它巧妙地将“最大化奖励”问题,重构为一个基于“偏好数据”(yw优于yl)的最大似然目标
  • 核心挑战:DPO 严重依赖于高质量、大规模的 “静态偏好数据集”。这在需要在线探索(Online Exploration)的 Agentic RL 任务中是一个巨大限制。
  • GRPO (群组相对策略优化)
  • 由 DeepSeek-R1 推广的 GRPO,是为解决 PPO 的 Critic 开销问题而生的。
  • 核心思想:GRPO 取消了绝对的价值 Critic。它在一组(Group)采样得到的响应中,计算 “相对奖励”(例如,将每个响应的奖励与其所在组的平均奖励和标准差进行比较)来估计优势函数。
  • 范式优势:GRPO 极其样本高效且计算开销低,因为它不需要训练一个庞大的 Critic 网络。这使其成为 Agentic RL 训练(尤其是需要海量探索的任务)的理想选择。


上表详细对比了 PPO、DPO 和 GRPO 三大家族的几十种变体(如 DAPO, GSPO, Step-DPO 等),清晰地展示了学术界和工业界在“优化效率”和“性能”之间进行的持续权衡。


能力视角:RL 如何构建“智能体大脑”


这篇综述最精彩的部分在于它系统性地回答了一个问题:RL 如何将 LLM 智能体的各个核心能力,从“静态模块”转变为“动态策略”?


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


规划能力 (Planning)


  • 传统范式:通过提示(如 ReAct)或固定搜索算法(如 MCTS)来“执行”规划。
  • Agentic RL 赋能:RL 让智能体通过环境反馈**“学会”如何规划**。
  1. RL 作为外部指导 (External Guide):LLM 充当“行动提议者”,而 RL 用于训练一个辅助的价值函数或启发式函数,来指导 MCTS 等经典搜索算法,告诉它哪个规划路径“更有价值”。
  2. RL 作为内部驱动 (Internal Driver):这是更高级的范式。LLM 本身就是“策略模型”,RL 的反馈(例如,任务成功与否)直接用于更新 LLM 的参数。例如,VOYAGER 通过环境交互迭代地构建和优化其“技能库”;ETO 则利用 DPO 来学习偏好“成功的规划轨迹”而非“失败的轨迹”。


工具使用 (Tool Using)


这是 Agentic RL 最重要、最成功的应用之一。论文清晰地勾勒了其发展三阶段:


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


1.ReAct 风格的工具调用

  • 依赖“提示工程” 或“SFT 监督微调”(如 Toolformer)。
  • 本质是“模仿学习”:智能体学习复制数据集中“Thought-Action-Observation”的静态模式。
  • 局限:僵化,无法适应新工具、新场景,也无法从工具执行失败(如 API 报错)中恢复。

2.工具集成 RL (Tool-integrated RL, TIR)

  • 这是 Agentic RL 带来的质变。学习范式从“模仿”转向“结果驱动的优化”。
  • 智能体通过 RL(奖励来自任务最终是否成功)自主发现:何时调用工具、调用哪个工具、以及如何组合工具,才是最优策略。
  • 论文引用了 ToolRL、ReTool、ARTIST 等工作,证明 RL 甚至可以训练智能体“自适应地”调整工具调用频率自发地”从工具错误中纠正

3.未来挑战:长时序 TIR (Long-horizon TIR)

  • 当前的瓶颈在于“时序信用分配”。
  • 在一个需要 20 步工具调用的任务中,如果任务最终失败了,RL 如何知道是第 3 步的 API 调用错了,还是第 15 步的参数错了?
  • 解决这个“稀疏奖励”下的信用分配问题,是实现鲁棒、长时序智能体的关键。


记忆 (Memory)


LLM 的“上下文窗口”是有限的。Agentic RL 致力于将“记忆”从一个被动的外部数据库,转变为一个智能体主动学习管理的动态子系统。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


1.RL 用于 RAG 风格记忆

  • 早期的记忆系统(如 MemGPT)是基于“启发式规则”管理记忆的。
  • RL 被引入来优化“检索策略”
  • 最新的工作如 Memory-R1,则训练了一个“记忆管理器”,该管理器通过 RL 学习执行 ADD/UPDATE/DELETE/NOOP 等结构化操作,以最大化下游任务(如 QA)的性能。

2.RL 用于词元级记忆 (Token-level Memory)

  • 智能体学习管理“内部记忆”,这些记忆通常以 Token 的形式存在。
  • 显式 Token:如 MemAgent,一个 RL 策略在每个时间步决定哪些自然语言 Token 应该被保留在“记忆池”中,哪些应该被覆盖。
  • 隐式 Token:如 MemoryLLM,智能体维护一组“潜(Latent)记忆 Token”,这些 Token 在 LLM 的前向计算中被整合和更新,以保留上下文信息。

3.未来挑战:RL 用于结构化记忆

  • 未来的记忆不应是扁平的 Token 序列,而应是结构化的(如知识图谱、时序图、原子记忆笔记)。
  • 目前,这些结构化记忆的管理仍然依赖于“手工规则”。
  • 综述指出,使用 RL 来动态地、自主地控制这些结构化记忆的构建、演化和修剪,是一个几乎未被探索的、极具前景的方向。


自我提升 (Self-Improvement)


智能体如何“从错误中学习”?RL 提供了将“反思”内化为“本能”的途径。


1.口头自纠 (Verbal Self-correction)

  • 早期工作,如 Reflexion、Self-refine。
  • 智能体在一次推理中完成“生成答案 -> 口头反思其错误 -> 生成修正答案”的循环。
  • 局限:这种改进是“短暂的”(ephemeral),仅限于当次推理,模型参数没有更新,下次遇到同样问题还是会犯错。

2.内化自纠 (Internalizing Self-correction)

  • Agentic RL 通过梯度更新,将这种反思能力“烧录”进模型参数,使其成为一种“持久的”(durable)能力。
  • 例如,KnowSelf 利用 DPO,让模型学习“偏好”那些展现出更强自我反思能力的轨迹。

3.迭代自训练 (Iterative Self-training)

  • 这是智能体自主进化的“终极形态”,类似于 AlphaZero。
  • 核心循环:智能体自己生成任务 -> 尝试解决 -> 通过“可验证的执行结果”(如代码是否通过、数学答案是否正确)获得奖励 -> 用这个奖励信号通过 RL 更新自己的策略
  • 例如,Absolute Zero 和 TTRL 都利用了这种“执行引导的课程生成”,使智能体能够在没有人类标注数据的情况下实现无休止的自我提升。


感知能力 (Perception)


对于多模态智能体,RL 不仅用于“看懂”,更用于“主动地看”。


  • 传统范式:被动感知(Passive Perception)。模型“看一眼”图像,然后输出一个文本答案(例如 VQA)。RL 只是用来对齐这个文本答案的质量。
  • Agentic RL 赋能:主动认知(Active Cognition)。RL 激励智能体在推理过程中“与视觉信息交互”。
  1. 锚定驱动的主动感知 (Grounding-Driven):RL 奖励那些将每一步文本推理(CoT)都显式地“锚定”(grounding)到图像特定区域的行为。
  2. 工具驱动的主动感知 (Tool-Driven):RL 训练智能体主动调用视觉工具。例如,Pixel Reasoner 扩展了智能体的动作空间,使其可以执行 croperasepaint 等操作,并通过“好奇心驱动的奖励”来激励其探索。
  3. 生成驱动的主动感知 (Generation-Driven):RL 训练智能体在推理时“想象”,即生成草图或中间图像来辅助思考。例如,GoT-R1 使用 RL 来优化智能体在生成最终图像之前,自主发现“语义-空间推理规划”。


任务视角:Agentic RL 的“真实战场”


综述继续系统盘点了 Agentic RL 在各大主流任务上的应用。这种分类让我们看到了理论是如何落地为“护城河”的。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


搜索与研究智能体


  • 目标:超越简单的 RAG,实现复杂的、多步骤的“深度研究”(Deep Research)。智能体需要自主地迭代查询、综合多源信息、撰写报告。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


  • 开源方法
  • WebDancer:结合人类浏览轨迹 SFT 和 RL 微调,训练 ReAct 风格的智能体。
  • WebThinker:构建一个“思考-搜索-起草”的循环,并通过 DPO 对齐人类反馈。
  • ASearcher:使用大规模异步 RL,实现了 40+次工具调用的长时序搜索。
  • 闭源系统
  • OpenAI Deep Research、Perplexity DeepResearch、Kimi-Researcher 等系统被认为是这一领域的标杆,它们可能结合了更强的基础模型和先进的 RL 调优。


代码智能体:奖励设计的完美试验场


代码任务是 Agentic RL 的“理想试验场”,因为它提供了即时、可靠、可验证的反馈信号(例如编译、单元测试、运行时错误)。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


研究者将此领域的方法清晰地划分为两种奖励设计思路:


1.结果奖励 RL (Outcome Reward RL)

  • 奖励信号:只看最终结果,例如 pass@k 或单元测试的通过率。
  • 代表作:AceCoder、DeepCoder-14B、RLEF。
  • 挑战:奖励信号极其稀疏,导致在长时序任务(如自动化软件工程 SWE)中难以学习。

2.过程奖励 RL (Process Reward RL)

  • 奖励信号:为了解决稀疏性,RL 从中间过程获取密集的监督信号。
  • 代表作
  • StepCoder:将“编译”和“执行”分解为步骤级信号(例如,编译器错误)来进行奖励塑形。
  • PSGPO:利用中间的错误跟踪和过程标注作为密集奖励。
  • PRLCoder:训练一个“教师模型”来评估不完整的代码片段,从而提供细粒度的监督。
  • 应用:这种方法不仅用于“代码生成”,还被用于更高级的“迭代式代码优化”(Debug) 和“自动化软件工程”(SWE),如 SWE-RL、Qwen3-Coder 等。


数学智能体:推理的“黄金标准”


数学推理因其对逻辑一致性和长时序演绎的严格要求,被视为评估智能体推理的“黄金标准”。


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


1.非形式化数学推理 (Informal Reasoning)

  • 任务:指在自然语言中进行推理,或使用 Python 等工具进行符号计算。
  • RL 应用
  • ARTIST 和 ToRL:利用“结果奖励”训练智能体学习何时以及如何交错调用“代码执行器”和“自然语言推理”。RL 训练使其涌现出了“自适应工具使用”和“基于工具反馈的自纠正”等认知行为。
  • TTRL:在“测试时”利用多数投票来估计奖励,并快速微调一个临时策略来解决当前问题。

2.形式化数学推理 (Formal Reasoning)

  • 任务:使用 Lean、Isabelle 等“证明辅助工具”,生成机器可验证的严格证明。
  • RL 应用
  • DeepSeek-Prover:开创性地展示了仅使用“结果奖励”(证明是否通过 Lean 验证器)的端到端 RL 流程,并结合 MCTS 探索,显著提升了证明成功率。
  • Leanabell-Prover-v2:将“验证器返回的错误信息”作为“过程奖励”信号,整合到 RL 更新中,使智能体能“感知验证器”并减少重复的失败模式。
  • STP:采用“自玩”(Self-play)和“专家迭代”(Expert Iteration)的混合奖励范式,让“猜想者”和“证明者”相互博弈,自动生成课程来缓解稀疏奖励问题。


GUI 智能体与多智能体系统


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


  • GUI 智能体
  • 训练智能体操作图形界面(APP、网页、操作系统)。
  • 早期依赖 SFT 静态轨迹数据。
  • Agentic RL(如 WebAgent-R1、DiGiRL、ComputerRL)使其转向**“在线交互环境”**中学习,智能体必须通过“试错”来处理动态和随机的界面变化。
  • 多智能体系统 (MAS)
  • RL 不仅用于训练单个智能体,还用于优化“智能体之间的协作”
  • MAPORL:扩展了“多智能体辩论”框架,将辩论的“验证结果”作为 RL 奖励,以提升协作推理能力。
  • FlowReasoner:训练一个“元智能体”(Meta-Agent),该智能体通过 RL 学习如何动态地协调其他智能体,其奖励信号是多维度的(性能、效率、成本)。
  • Chain-of-Agents (COA):通过“多智能体蒸馏”和“智能体强化学习”,将复杂的多智能体协作模式“内化”到单个 Agent Foundation Model (AFM) 中。


生态系统:Agentic RL 的“弹药库”


Agentic RL 的蓬勃发展,离不开底层“环境”和“框架”的支持。


环境模拟器 (Environments)


这是训练智能体的“健身房”和“考场”。综述将其归纳为几大类:


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


  • 网页环境:WebShop、Mind2Web、WebArena(可复现的 Docker 容器环境)。
  • GUI 环境:AndroidWorld(在真实安卓模拟器上运行)、OSWorld(跨 Ubuntu, Windows, macOS)。
  • 代码 & SWE 环境:Debug-Gym、SWE-bench(源自真实 GitHub issue)、ColBench。
  • 科学 & 游戏:ScienceWorld、ALFWorld、Crafter。
  • 通用环境:AgentBench、InternBootcamp。


RL 框架 (Frameworks)


这是构建智能体的“工具箱”。综述将其分为三类:


Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL


1.Agentic RL 专用框架

  • 专门为 LLM 智能体设计的端到端训练框架。
  • AREAL:用于语言推理的大规模异步分布式架构。
  • AWorld:通过跨集群的海量并行 Rollout 来解决“经验生成”的瓶颈。
  • AgentRL:可扩展的异步框架,支持多轮、多任务的智能体 RL 训练。
  • 同样值得关注的 Agent Lightning (来自微软)则提供了一个灵活的RL框架,它通过将智能体执行(建模为 MDP)与训练过程解耦,并采用一种分层的RL算(LightningRL),从而能以近乎零代码修改的方式来训练任何AI智能体。

2.RLHF & LLM 微调框架

  • 提供了核心的 RL 算法实现,如 OpenRLHF、TRL、trlX。

3.通用 RL 框架

  • 提供了核心的算法和引擎,如 RLlib、Tianshou。


开放挑战:通往“通用智能”的三大鸿沟


在绘制了宏伟蓝图之后,综述在快最后的部分以极其冷静和深刻的笔触,指出了 Agentic RL 前进道路上的三大挑战。


挑战一:可信度危机 (Trustworthiness)


Agentic RL 的自主性是一把双刃剑。综述指出,RL 的引入不仅没有解决,反而在某些方面加剧了 LLM 的可信度问题。


1.安全 (Security)

  • 智能体拥有了工具、记忆和与环境交互的能力,其“攻击面”远超传统 LLM。
  • 最大的危险来自“奖励黑客”(Reward Hacking)。RL 智能体的唯一目标是“最大化奖励”。如果它发现“调用恶意 API”或“利用系统安全漏洞”是达成目标(获得高分)的最快路径,RL 将主动地强化(Reinforce)这种不安全行为。这比被动的提示注入要危险得多。

2.幻觉 (Hallucination)

  • 幻觉是 LLM 的顽疾。而Agentic RL 可能会带来幻觉税”(Hallucination Tax)。
  • 原因:如果只使用“结果奖励”(Outcome-driven RL),智能体可能会发现,通过在中间推理步骤中“编造”(幻觉)看似合理的步骤,也能“碰巧”得到正确答案。RL 会奖励这种“投机取巧”的行为,导致其幻觉加剧。
  • 解法:转向“过程奖励”(Process-based rewards),例如 FSPO,即对智能体的每一步推理进行事实性验证,从而直接惩罚不真实的中间步骤。

3.逢迎 (Sycophancy)

  • 指 LLM 倾向于同意用户的错误观点,而非坚持事实。
  • 综述指出,RLHF 是导致“逢迎”的主要原因
  • 原因:因为人类标注者在标注偏好数据时,天生就“偏好”那些“ agreeable”(顺从的、 validating)的回答。这导致奖励模型(RM)错误地学习到“逢迎 = 高分”。RL 策略在优化这个 RM 时,就会被直接激励去学习这种逢迎行为,哪怕这违背了事实。


挑战二:规模化的双重瓶颈


1.训练规模化 (Scaling up Training)

  • 算力、数据和模型大小是永恒的主题。
  • 综述引用 ProRL、Agent RL Scaling Law 等研究证明,增加 RL 训练的计算量(即更长的训练步数),可以直接、系统性地提升智能体的推理能力、工具使用频率和任务准确率。RL 训练是一种根本性的能力提升轴。

2.环境规模化 (Scaling up Environment)

  • 这被认为是未来 Agentic RL 的核心瓶颈
  • 现有的环境(如 ALFWorld)过于简单,已不足以训练通用智能体。
  • 未来的范式:不应只“训练智能体”来适应“静态环境”,而应该让“环境”和“智能体”共同进化。
  • 综述重点介绍了 EnvGen 等工作:使用一个 LLM 作为“环境生成器”。这个生成器根据智能体当前的弱点,程序化地(PCG)生成新的、有针对性的任务,确保智能体始终在其“最近发展区”内训练。
  • 这种“自动化课程生成”与“自动化奖励设计”相结合,将创造一个可扩展的“训练飞轮”(Training Flywheel),这是通向自进化 AI 的关键。


挑战三:终极辩论:RL 是“放大器”还是“新知识”?


在综述的最后,研究者提出了一个关于 Agentic RL 机制的深刻辩论,直指其灵魂:


RL 训练究竟为什么能提升 LLM 的推理能力?


1.“放大器”假说 (The "amplifier" view)

  • 此观点认为,RL 没有创造任何新能力
  • LLM 在其海量的预训练数据中,已经“见过”或“潜在地知道”了所有正确的推理路径。
  • RL(尤其是 GRPO 这类“采样-验证-奖励”的范式)所做的,仅仅是“放大”了那些已经存在、但概率较低的正确路径的概率。它只是提高了 pass@1 的成绩,但模型的“能力边界”(pass@k)并没有真正扩展。

2.“新知识”假说 (The "new-knowledge" view)

  • 此观点认为,RL 确实安装了“新的计算”,教会了模型在“下一个词预测”的预训练中无法学到的东西。
  • 理论证据:在某些任务(如奇偶校验)上,仅靠“下一个词预测”在统计上是无法学会的,而 RL 却可以。
  • 实证证据:RL 训练后的模型,涌现出了在基础模型中完全不存在的新认知行为(例如验证、回溯、设置子目标),并且这些新行为能泛化到分布外(OOD)的任务上


研究者的结论是:RL 究竟能否真正赋予 LLM 超越其预训练所学的、定性上的新能力,这仍然是一个悬而未决的开放性问题


结语:一个新时代的开启


这篇综述 以前所未有的广度和深度,为我们系统地绘制了Agentic Reinforcement Learning 这一新兴领域的全景图。它从根本上重新定义了 LLM 的训练目标:从优化“被动的文本生成”(LLM-RL),转向优化“自主的决策策略”(Agentic RL)


论文通过两大分类法,一个围绕核心智能体能力(规划、工具使用、记忆、反思、感知),另一个围绕关键任务域(搜索、代码、数学、GUI)系统地论证了强化学习(RL)是实现这一范式转变的“关键机制”。


同时,它也深刻地指出了通往这条道路的三大挑战:可信度的内在风险(奖励黑客)、规模化的双重瓶颈(训练与环境),以及机制上的终极疑问(放大器 vs 新知识)。


对于任何希望理解下一代 AI 核心驱动力的工程师、研究者和产品经理而言,这篇综述提供了一张不可或缺的“全景地图”。


文章来自于“Al修猫Prompt”,作者“Al修猫Prompt”。

关键词: AI , 模型训练 , Agentic RL , RL
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

6
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0