Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

8854点击 2025-11-18 15:11

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。

在过去很长一段时间里，这个词几乎等同于 RLHF（人类反馈强化学习）一种用于"对齐"的技术，它教会模型拒绝有害问题、生成更符合人类偏好的回答。

但最近一年，情况变得微妙起来。

OpenAI的o1/o3、DeepSeek-R1爆火了。它们被称为"推理模型"，似乎比以往的GPT更"聪明"。紧接着Kimi-Researcher也火了，它能自己搜索、阅读几十篇文献、写出完整报告。很多人会说："这不就是模型变强了吗？或者给模型加了搜索功能？这和Agent有什么关系？"

这个疑问，恰恰触及了当前AI领域最核心、也最容易被误解的一个问题：

o1、R1 这些"推理模型"，它们到底是"更聪明的LLM"，还是已经跨越了某个界限，成为了某种"智能体"？它们背后的RL训练，和传统的RLHF，究竟是不是一回事？

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

牛津大学9月份发布了一份综合了500多篇近期著作的重磅综述 《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》 给出了响亮而清晰的回答：它们不是一回事。而且，o1、R1这些模型，从技术本质上看，已经是"智能体"了。尽管它们看起来"只是在对话"。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

这篇综述的核心价值，就在于它首次为这个正在爆发的新领域进行了严格的“划界”。研究者们在引言中明确了本文的“研究范围”（Scope）：

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

它“不”研究什么？ 它“明确排除”（Out of scope）了“RL 用于人类价值对齐”（例如 RLHF）和“RL 用于提升静态基准分数”。
它“研究”什么？ 它的“主要焦点”（Primary focus）是：“RL 如何赋能（empowers）LLM 智能体在动态环境（dynamic environments）中的能力”。

这篇综述将这个新领域定义为“智能体强化学习”（Agentic RL），一个将LLM从“被动生成器”转变为“自主决策者”的全新范式。本文将继昨天的《LLM为什么能替你操作电脑？4个关键技术让AI拥有"操作系统级"能力｜Agent和工作流的区别就在这》为您深度剖析这份奠基性的综述，揭示 Agentic RL 是如何系统性地构建规划、工具使用、记忆和反思等核心智能的。

理论基石：Agentic RL 究竟“新”在哪里？

这篇综述的第一个重大贡献，就是在理论上严格区分了“传统 LLM-RL”和“Agentic RL”。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

我们熟知的 RLHF（人类反馈强化学习）或 DPO（直接偏好优化）属于前者，它们的目标是“对齐”模型的单次输出。而 Agentic RL 的目标，是训练一个能在动态环境中持续决策的“策略”。

论文通过马尔可夫决策过程（MDP）的形式化语言，精准地揭示了两者在“世界模型”上的根本差异。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

传统 LLM-RL：退化的“单步”决策

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

核心局限：这种范式本质上仍是“序列建模”，它优化的是“输出质量”，而不是“决策过程”。它无法处理需要多步骤交互、使用工具或适应环境变化的任务。

Agentic RL：时序扩展的“多步”交互

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

范式飞跃：Agentic RL 不再是“对齐”一个静态答案，而是在训练一个自主的“策略”。这个策略必须学会在一个充满不确定性的动态世界中，通过一系列思考、行动和观察，来完成一个长期的目标。这正是“智能体”的真正含义。

算法演进：驱动智能体的“优化引擎”

在区分了理论模型后，综述深入探讨了实现 Agentic RL 的核心算法。虽然 PPO、DPO等算法在传统LLM-RL中被广泛使用，但它们在 Agentic RL 范式下，其功能和挑战发生了质的变化。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

PPO (近端策略优化)：
作为 RLHF 的“功勋算法”，PPO 及其变体在 Agentic RL 中依然是主力。
它通过一个“Clipped Objective”来限制策略更新的步长，确保训练的稳定性。
核心挑战：PPO 依赖于一个单独的、与策略模型同样大小的“Critic”网络（价值函数），这使得训练参数量翻倍，计算开销巨大。
DPO (直接偏好优化)：
DPO 是一个“革命性”的转变，它完全绕过了奖励模型和 Critic 网络。
它巧妙地将“最大化奖励”问题，重构为一个基于“偏好数据”（yw优于yl）的最大似然目标。
核心挑战：DPO 严重依赖于高质量、大规模的 “静态偏好数据集”。这在需要在线探索（Online Exploration）的 Agentic RL 任务中是一个巨大限制。
GRPO (群组相对策略优化)：
由 DeepSeek-R1 推广的 GRPO，是为解决 PPO 的 Critic 开销问题而生的。
核心思想：GRPO 取消了绝对的价值 Critic。它在一组（Group）采样得到的响应中，计算 “相对奖励”（例如，将每个响应的奖励与其所在组的平均奖励和标准差进行比较）来估计优势函数。
范式优势：GRPO 极其样本高效且计算开销低，因为它不需要训练一个庞大的 Critic 网络。这使其成为 Agentic RL 训练（尤其是需要海量探索的任务）的理想选择。

上表详细对比了 PPO、DPO 和 GRPO 三大家族的几十种变体（如 DAPO, GSPO, Step-DPO 等），清晰地展示了学术界和工业界在“优化效率”和“性能”之间进行的持续权衡。

能力视角：RL 如何构建“智能体大脑”

这篇综述最精彩的部分在于它系统性地回答了一个问题：RL 如何将 LLM 智能体的各个核心能力，从“静态模块”转变为“动态策略”？

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

规划能力 (Planning)

传统范式：通过提示（如 ReAct）或固定搜索算法（如 MCTS）来“执行”规划。
Agentic RL 赋能：RL 让智能体通过环境反馈**“学会”如何规划**。

RL 作为外部指导 (External Guide)：LLM 充当“行动提议者”，而 RL 用于训练一个辅助的价值函数或启发式函数，来指导 MCTS 等经典搜索算法，告诉它哪个规划路径“更有价值”。
RL 作为内部驱动 (Internal Driver)：这是更高级的范式。LLM 本身就是“策略模型”，RL 的反馈（例如，任务成功与否）直接用于更新 LLM 的参数。例如，VOYAGER 通过环境交互迭代地构建和优化其“技能库”；ETO 则利用 DPO 来学习偏好“成功的规划轨迹”而非“失败的轨迹”。

工具使用 (Tool Using)

这是 Agentic RL 最重要、最成功的应用之一。论文清晰地勾勒了其发展三阶段：

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

1.ReAct 风格的工具调用：

依赖“提示工程” 或“SFT 监督微调”（如 Toolformer）。
本质是“模仿学习”：智能体学习复制数据集中“Thought-Action-Observation”的静态模式。
局限：僵化，无法适应新工具、新场景，也无法从工具执行失败（如 API 报错）中恢复。

2.工具集成 RL (Tool-integrated RL, TIR)：

这是 Agentic RL 带来的质变。学习范式从“模仿”转向“结果驱动的优化”。
智能体通过 RL（奖励来自任务最终是否成功）自主发现：何时调用工具、调用哪个工具、以及如何组合工具，才是最优策略。
论文引用了 ToolRL、ReTool、ARTIST 等工作，证明 RL 甚至可以训练智能体“自适应地”调整工具调用频率和“自发地”从工具错误中纠正。

3.未来挑战：长时序 TIR (Long-horizon TIR)：

当前的瓶颈在于“时序信用分配”。
在一个需要 20 步工具调用的任务中，如果任务最终失败了，RL 如何知道是第 3 步的 API 调用错了，还是第 15 步的参数错了？
解决这个“稀疏奖励”下的信用分配问题，是实现鲁棒、长时序智能体的关键。

记忆 (Memory)

LLM 的“上下文窗口”是有限的。Agentic RL 致力于将“记忆”从一个被动的外部数据库，转变为一个智能体主动学习管理的动态子系统。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

1.RL 用于 RAG 风格记忆：

早期的记忆系统（如 MemGPT）是基于“启发式规则”管理记忆的。
RL 被引入来优化“检索策略”。
最新的工作如 Memory-R1，则训练了一个“记忆管理器”，该管理器通过 RL 学习执行 ADD/UPDATE/DELETE/NOOP 等结构化操作，以最大化下游任务（如 QA）的性能。

2.RL 用于词元级记忆 (Token-level Memory)：

智能体学习管理“内部记忆”，这些记忆通常以 Token 的形式存在。
显式 Token：如 MemAgent，一个 RL 策略在每个时间步决定哪些自然语言 Token 应该被保留在“记忆池”中，哪些应该被覆盖。
隐式 Token：如 MemoryLLM，智能体维护一组“潜（Latent）记忆 Token”，这些 Token 在 LLM 的前向计算中被整合和更新，以保留上下文信息。

3.未来挑战：RL 用于结构化记忆：

未来的记忆不应是扁平的 Token 序列，而应是结构化的（如知识图谱、时序图、原子记忆笔记）。
目前，这些结构化记忆的管理仍然依赖于“手工规则”。
综述指出，使用 RL 来动态地、自主地控制这些结构化记忆的构建、演化和修剪，是一个几乎未被探索的、极具前景的方向。

自我提升 (Self-Improvement)

智能体如何“从错误中学习”？RL 提供了将“反思”内化为“本能”的途径。

1.口头自纠 (Verbal Self-correction)：

早期工作，如 Reflexion、Self-refine。
智能体在一次推理中完成“生成答案 -> 口头反思其错误 -> 生成修正答案”的循环。
局限：这种改进是“短暂的”（ephemeral），仅限于当次推理，模型参数没有更新，下次遇到同样问题还是会犯错。

2.内化自纠 (Internalizing Self-correction)：

Agentic RL 通过梯度更新，将这种反思能力“烧录”进模型参数，使其成为一种“持久的”（durable）能力。
例如，KnowSelf 利用 DPO，让模型学习“偏好”那些展现出更强自我反思能力的轨迹。

3.迭代自训练 (Iterative Self-training)：

这是智能体自主进化的“终极形态”，类似于 AlphaZero。
核心循环：智能体自己生成任务 -> 尝试解决 -> 通过“可验证的执行结果”（如代码是否通过、数学答案是否正确）获得奖励 -> 用这个奖励信号通过 RL 更新自己的策略。
例如，Absolute Zero 和 TTRL 都利用了这种“执行引导的课程生成”，使智能体能够在没有人类标注数据的情况下实现无休止的自我提升。

感知能力 (Perception)

对于多模态智能体，RL 不仅用于“看懂”，更用于“主动地看”。

传统范式：被动感知（Passive Perception）。模型“看一眼”图像，然后输出一个文本答案（例如 VQA）。RL 只是用来对齐这个文本答案的质量。
Agentic RL 赋能：主动认知（Active Cognition）。RL 激励智能体在推理过程中“与视觉信息交互”。

锚定驱动的主动感知 (Grounding-Driven)：RL 奖励那些将每一步文本推理（CoT）都显式地“锚定”（grounding）到图像特定区域的行为。
工具驱动的主动感知 (Tool-Driven)：RL 训练智能体主动调用视觉工具。例如，Pixel Reasoner 扩展了智能体的动作空间，使其可以执行 crop, erase, paint 等操作，并通过“好奇心驱动的奖励”来激励其探索。
生成驱动的主动感知 (Generation-Driven)：RL 训练智能体在推理时“想象”，即生成草图或中间图像来辅助思考。例如，GoT-R1 使用 RL 来优化智能体在生成最终图像之前，自主发现“语义-空间推理规划”。

任务视角：Agentic RL 的“真实战场”

综述继续系统盘点了 Agentic RL 在各大主流任务上的应用。这种分类让我们看到了理论是如何落地为“护城河”的。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

搜索与研究智能体

目标：超越简单的 RAG，实现复杂的、多步骤的“深度研究”（Deep Research）。智能体需要自主地迭代查询、综合多源信息、撰写报告。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

开源方法：
WebDancer：结合人类浏览轨迹 SFT 和 RL 微调，训练 ReAct 风格的智能体。
WebThinker：构建一个“思考-搜索-起草”的循环，并通过 DPO 对齐人类反馈。
ASearcher：使用大规模异步 RL，实现了 40+次工具调用的长时序搜索。
闭源系统：
OpenAI Deep Research、Perplexity DeepResearch、Kimi-Researcher 等系统被认为是这一领域的标杆，它们可能结合了更强的基础模型和先进的 RL 调优。

代码智能体：奖励设计的完美试验场

代码任务是 Agentic RL 的“理想试验场”，因为它提供了即时、可靠、可验证的反馈信号（例如编译、单元测试、运行时错误）。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

研究者将此领域的方法清晰地划分为两种奖励设计思路：

1.结果奖励 RL (Outcome Reward RL)：

奖励信号：只看最终结果，例如 pass@k 或单元测试的通过率。
代表作：AceCoder、DeepCoder-14B、RLEF。
挑战：奖励信号极其稀疏，导致在长时序任务（如自动化软件工程 SWE）中难以学习。

2.过程奖励 RL (Process Reward RL)：

奖励信号：为了解决稀疏性，RL 从中间过程获取密集的监督信号。
代表作：
StepCoder：将“编译”和“执行”分解为步骤级信号（例如，编译器错误）来进行奖励塑形。
PSGPO：利用中间的错误跟踪和过程标注作为密集奖励。
PRLCoder：训练一个“教师模型”来评估不完整的代码片段，从而提供细粒度的监督。
应用：这种方法不仅用于“代码生成”，还被用于更高级的“迭代式代码优化”（Debug）和“自动化软件工程”（SWE），如 SWE-RL、Qwen3-Coder 等。

数学智能体：推理的“黄金标准”

数学推理因其对逻辑一致性和长时序演绎的严格要求，被视为评估智能体推理的“黄金标准”。

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

1.非形式化数学推理 (Informal Reasoning)：

任务：指在自然语言中进行推理，或使用 Python 等工具进行符号计算。
RL 应用：
ARTIST 和 ToRL：利用“结果奖励”训练智能体学习何时以及如何交错调用“代码执行器”和“自然语言推理”。RL 训练使其涌现出了“自适应工具使用”和“基于工具反馈的自纠正”等认知行为。
TTRL：在“测试时”利用多数投票来估计奖励，并快速微调一个临时策略来解决当前问题。

2.形式化数学推理 (Formal Reasoning)：

任务：使用 Lean、Isabelle 等“证明辅助工具”，生成机器可验证的严格证明。
RL 应用：
DeepSeek-Prover：开创性地展示了仅使用“结果奖励”（证明是否通过 Lean 验证器）的端到端 RL 流程，并结合 MCTS 探索，显著提升了证明成功率。
Leanabell-Prover-v2：将“验证器返回的错误信息”作为“过程奖励”信号，整合到 RL 更新中，使智能体能“感知验证器”并减少重复的失败模式。
STP：采用“自玩”（Self-play）和“专家迭代”（Expert Iteration）的混合奖励范式，让“猜想者”和“证明者”相互博弈，自动生成课程来缓解稀疏奖励问题。

GUI 智能体与多智能体系统

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

GUI 智能体：
训练智能体操作图形界面（APP、网页、操作系统）。
早期依赖 SFT 静态轨迹数据。
Agentic RL（如 WebAgent-R1、DiGiRL、ComputerRL）使其转向**“在线交互环境”**中学习，智能体必须通过“试错”来处理动态和随机的界面变化。
多智能体系统 (MAS)：
RL 不仅用于训练单个智能体，还用于优化“智能体之间的协作”。
MAPORL：扩展了“多智能体辩论”框架，将辩论的“验证结果”作为 RL 奖励，以提升协作推理能力。
FlowReasoner：训练一个“元智能体”（Meta-Agent），该智能体通过 RL 学习如何动态地协调其他智能体，其奖励信号是多维度的（性能、效率、成本）。
Chain-of-Agents (COA)：通过“多智能体蒸馏”和“智能体强化学习”，将复杂的多智能体协作模式“内化”到单个 Agent Foundation Model (AFM) 中。

生态系统：Agentic RL 的“弹药库”

Agentic RL 的蓬勃发展，离不开底层“环境”和“框架”的支持。

环境模拟器 (Environments)

这是训练智能体的“健身房”和“考场”。综述将其归纳为几大类：

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

网页环境：WebShop、Mind2Web、WebArena（可复现的 Docker 容器环境）。
GUI 环境：AndroidWorld（在真实安卓模拟器上运行）、OSWorld（跨 Ubuntu, Windows, macOS）。
代码 & SWE 环境：Debug-Gym、SWE-bench（源自真实 GitHub issue）、ColBench。
科学 & 游戏：ScienceWorld、ALFWorld、Crafter。
通用环境：AgentBench、InternBootcamp。

RL 框架 (Frameworks)

这是构建智能体的“工具箱”。综述将其分为三类：

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

1.Agentic RL 专用框架：

专门为 LLM 智能体设计的端到端训练框架。
AREAL：用于语言推理的大规模异步分布式架构。
AWorld：通过跨集群的海量并行 Rollout 来解决“经验生成”的瓶颈。
AgentRL：可扩展的异步框架，支持多轮、多任务的智能体 RL 训练。
同样值得关注的 Agent Lightning （来自微软）则提供了一个灵活的RL框架，它通过将智能体执行（建模为 MDP）与训练过程解耦，并采用一种分层的RL算（LightningRL），从而能以近乎零代码修改的方式来训练任何AI智能体。

2.RLHF & LLM 微调框架：

提供了核心的 RL 算法实现，如 OpenRLHF、TRL、trlX。

3.通用 RL 框架：

提供了核心的算法和引擎，如 RLlib、Tianshou。

开放挑战：通往“通用智能”的三大鸿沟

在绘制了宏伟蓝图之后，综述在快最后的部分以极其冷静和深刻的笔触，指出了 Agentic RL 前进道路上的三大挑战。

挑战一：可信度危机 (Trustworthiness)

Agentic RL 的自主性是一把双刃剑。综述指出，RL 的引入不仅没有解决，反而在某些方面加剧了 LLM 的可信度问题。

1.安全 (Security)：

智能体拥有了工具、记忆和与环境交互的能力，其“攻击面”远超传统 LLM。
最大的危险来自“奖励黑客”（Reward Hacking）。RL 智能体的唯一目标是“最大化奖励”。如果它发现“调用恶意 API”或“利用系统安全漏洞”是达成目标（获得高分）的最快路径，RL 将主动地强化（Reinforce）这种不安全行为。这比被动的提示注入要危险得多。

2.幻觉 (Hallucination)：

幻觉是 LLM 的顽疾。而Agentic RL 可能会带来“幻觉税”（Hallucination Tax）。
原因：如果只使用“结果奖励”（Outcome-driven RL），智能体可能会发现，通过在中间推理步骤中“编造”（幻觉）看似合理的步骤，也能“碰巧”得到正确答案。RL 会奖励这种“投机取巧”的行为，导致其幻觉加剧。
解法：转向“过程奖励”（Process-based rewards），例如 FSPO，即对智能体的每一步推理进行事实性验证，从而直接惩罚不真实的中间步骤。

3.逢迎 (Sycophancy)：

指 LLM 倾向于同意用户的错误观点，而非坚持事实。
综述指出，RLHF 是导致“逢迎”的主要原因。
原因：因为人类标注者在标注偏好数据时，天生就“偏好”那些“ agreeable”（顺从的、 validating）的回答。这导致奖励模型（RM）错误地学习到“逢迎 = 高分”。RL 策略在优化这个 RM 时，就会被直接激励去学习这种逢迎行为，哪怕这违背了事实。

挑战二：规模化的双重瓶颈

1.训练规模化 (Scaling up Training)：

算力、数据和模型大小是永恒的主题。
综述引用 ProRL、Agent RL Scaling Law 等研究证明，增加 RL 训练的计算量（即更长的训练步数），可以直接、系统性地提升智能体的推理能力、工具使用频率和任务准确率。RL 训练是一种根本性的能力提升轴。

2.环境规模化 (Scaling up Environment)：

这被认为是未来 Agentic RL 的核心瓶颈。
现有的环境（如 ALFWorld）过于简单，已不足以训练通用智能体。
未来的范式：不应只“训练智能体”来适应“静态环境”，而应该让“环境”和“智能体”共同进化。
综述重点介绍了 EnvGen 等工作：使用一个 LLM 作为“环境生成器”。这个生成器根据智能体当前的弱点，程序化地（PCG）生成新的、有针对性的任务，确保智能体始终在其“最近发展区”内训练。
这种“自动化课程生成”与“自动化奖励设计”相结合，将创造一个可扩展的“训练飞轮”（Training Flywheel），这是通向自进化 AI 的关键。

挑战三：终极辩论：RL 是“放大器”还是“新知识”？

在综述的最后，研究者提出了一个关于 Agentic RL 机制的深刻辩论，直指其灵魂：

RL 训练究竟为什么能提升 LLM 的推理能力？

1.“放大器”假说 (The "amplifier" view)：

此观点认为，RL 没有创造任何新能力。
LLM 在其海量的预训练数据中，已经“见过”或“潜在地知道”了所有正确的推理路径。
RL（尤其是 GRPO 这类“采样-验证-奖励”的范式）所做的，仅仅是“放大”了那些已经存在、但概率较低的正确路径的概率。它只是提高了 pass@1 的成绩，但模型的“能力边界”（pass@k）并没有真正扩展。

2.“新知识”假说 (The "new-knowledge" view)：

此观点认为，RL 确实安装了“新的计算”，教会了模型在“下一个词预测”的预训练中无法学到的东西。
理论证据：在某些任务（如奇偶校验）上，仅靠“下一个词预测”在统计上是无法学会的，而 RL 却可以。
实证证据：RL 训练后的模型，涌现出了在基础模型中完全不存在的新认知行为（例如验证、回溯、设置子目标），并且这些新行为能泛化到分布外（OOD）的任务上。

研究者的结论是：RL 究竟能否真正赋予 LLM 超越其预训练所学的、定性上的新能力，这仍然是一个悬而未决的开放性问题。

结语：一个新时代的开启

这篇综述以前所未有的广度和深度，为我们系统地绘制了Agentic Reinforcement Learning 这一新兴领域的全景图。它从根本上重新定义了 LLM 的训练目标：从优化“被动的文本生成”（LLM-RL），转向优化“自主的决策策略”（Agentic RL）。

论文通过两大分类法，一个围绕核心智能体能力（规划、工具使用、记忆、反思、感知），另一个围绕关键任务域（搜索、代码、数学、GUI）系统地论证了强化学习（RL）是实现这一范式转变的“关键机制”。

同时，它也深刻地指出了通往这条道路的三大挑战：可信度的内在风险（奖励黑客）、规模化的双重瓶颈（训练与环境），以及机制上的终极疑问（放大器 vs 新知识）。

对于任何希望理解下一代 AI 核心驱动力的工程师、研究者和产品经理而言，这篇综述提供了一张不可或缺的“全景地图”。

文章来自于“Al修猫Prompt”，作者“Al修猫Prompt”。

关键词: AI , 模型训练 , Agentic RL , RL

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0