扩展强化学习：环境、奖励黑客、智能体、数据扩展

6244点击 2025-06-09 10:25

https://semianalysis.com/2025/06/08/scaling-reinforcement-learning-environments-reward-hacking-agents-scaling-data/

Test time scaling范式蓬勃发展。推理模型持续快速改进，变得更为高效且价格更为亲民。在评估现实世界软件工程任务（如 SWE-Bench）时，模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来源：SemiAnalysis

强化学习（RL）是这一进步的原因。我们在之前的报告中提到过这一点，阐述了 RL 如何通过生成思维链（CoT）使模型能够进行推理。我们预计这一范式将继续延续。

除了 CoT 创新之外，模型能够连贯地“思考”更长时间，从而解锁了智能体能力。工具使用，例如搜索、利用 Python 进行计算以及其他能力，都是在能够长时间规划、推理和操作的基础上实现的。更好的推理使模型有更多时间“思考”，从而从简单的聊天机器人转变为规划者。这反过来又使得更连贯的智能体得以实现。随着机器学习研究人员在可验证领域扩展 RL，这些连贯的智能体将开始承担涉及计算机使用的更复杂任务，例如完全自动化的远程办公以及系统工程 / 架构设计。

尽管取得了显著进展，但在基础设施堆栈中，扩展 RL 计算面临着新的瓶颈和挑战。RL 可能是实现通用人工智能（AGI）之前所需的最后一个范式。机会巨大，因此投资也是如此。数十亿美元已准备好用于预训练模型。未来还会有更多资金用于扩展 RL，但其基础设施需求相当不同。让我们看看要实现这一目标需要什么。

强化学习的工作原理

强化学习（RL）在概念上很简单。强化模型从任意环境中的当前状态获取信息，生成一组选择行动的概率，然后采取该行动。模型的目标是实现一个目标，这一目标由“奖励函数”定义。强化学习发生在通过改变模型权重，使得生成的最高概率更有可能获得更高的奖励。

强化学习并非新事物。RL 是一种较老的技术，早于大语言模型。例如，它是掌握围棋和国际象棋的系统背后的技术基础。然而，RL 最终适用于像 LLM 这样的通用技术，这在能力和技术扩散方面都具有重大意义。

可验证奖励

在 LLM 中，RL 在具有可验证奖励的领域表现最佳。这意味着任务（如编程和数学）具有 RL 所需的明确奖励定义。在奖励函数定义不那么模糊的领域，推理模型在改进方面遇到了困难。当 OpenAI 对 GPT-4o 进行 RL 以获得 o1 时，其最大收益出现在具有可验证领域的领域。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

来源：OpenAI

随着该领域的发展，像工具使用这样的新领域正在出现。OpenAI 的 o3 可以放大图片，对看到的内容进行推理，运行一些计算，再进行更多推理，然后提供答案。这解锁了一系列模型现在能够很好地完成的任务，例如识别照片拍摄的地点。虽然这样的任务在技术上是可验证的，但并没有明确地进行训练。然而，尽管取得了令人难以置信的进展，实验室在 RL 上的支出通常相对较少，尤其是与预训练的支出相比。那么，要使 RL 计算达到并超过预训练的水平，瓶颈在哪里？非可验证领域将被解决吗？

扩展强化学习：环境、奖励黑客、智能体、数据扩展

RL 是推理密集型的

研究一种流行的 RL 算法可以让我们深入了解 RL 为何如此依赖推理。组相对策略优化（GRPO）是一种常用的算法，也是 DeepSeek 用于训练 R1 的算法。

在 GRPO 中，模型被要求回答一个问题。模型针对该问题生成多个答案。每个答案可以被视为一次“尝试”，本质上是模型试图找到解决方案。换句话说，“尝试”是模型尝试生成答案或解决问题的个体尝试。每个问题的尝试次数可以从几个答案到数百次不等。没有技术限制，但尝试次数越多，占用的内存和计算资源就越多。

这使得 RL 推理密集型，因为针对每个问题生成了如此多的答案。这一点在报告中我们将多次提及，具有重大意义。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

然后将模型的答案与真实答案进行对比评分。在 GRPO 中，每个答案都会获得一个奖励分数。正确性并非唯一因素，实际上奖励函数可以以多种方式调整，其他因素还包括格式和语言一致性。

在计算奖励后，模型随后通过梯度下降进行更新，以增加生成更有可能获得积极奖励的答案的概率。GRPO 是近端策略优化（PPO）的一个变体，它消除了对评估模型（在 PPO 中用于预测未来奖励）的需求，从而使其更加节省内存。PPO 和 GRPO 都可以使用学习到的奖励模型或基于规则的奖励系统来评判答案质量。由于 GRPO 的内存需求较低，它在开源社区得到了广泛应用，但我们预计实验室将继续使用 PPO 的变体。PPO 是在 OpenAI 发明的，实验室内部使用的版本现在与通常与 GRPO 对比的公开版本有实质性差异。实验室也面临着较少的计算限制。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

来源：Shao et al.

核心思想是 RL 通常需要一个问题、一个用于对比的答案以及一种向模型发出信号以改变其行为的方式。模型探索寻找答案的方式可以有所不同，但它需要以不同的尝试形式生成多个答案，因此对推理方面要求很高。然后模型被更新，以使正确答案更有可能出现，因此也有一个隐含的训练方面。

奖励函数难以定义

如上所述，在可验证奖励方面取得了显著进展，原因之一是奖励函数很容易定义。数学问题的答案要么正确，要么错误。然而，奖励函数在技术上可以是用户想要优化的任何东西。

从概念上讲，模型在 RL 下的主要目标是最大化总奖励。例如，如果一个模型正在被训练来下国际象棋，其主要目标是在不违反规则的情况下赢得比赛。模型可以通过在不同情况下发现哪些棋步有助于获胜来不断改进。模型可以通过其运行的环境获得反馈。我们稍后将深入探讨这一点，但在国际象棋的例子中，可以将其视为模型可以互动的棋盘和棋子。

为较不狭窄的任务定义奖励被描述为一种“黑暗艺术”，这是因为很难做到正确。即使在清晰的环境中，设置正确的奖励函数也需要大量的研究、测试和优化。一个例子是芯片设计。AlphaChip 是谷歌设计的用于帮助设计芯片并用 RL 训练的模型。该模型助力设计了谷歌使用的 TPUv6 芯片，将 TPUv6 的线长减少了 6.2%。在这种情况下，奖励函数被明确定义为：

扩展强化学习：环境、奖励黑客、智能体、数据扩展

来源：Mirhoseini et al.

这引导模型精确地最小化重要的因素：线长、拥塞和密度。请注意，即使是相对简单的奖励函数，设置起来也并非易事。拥塞和密度都有标量值来调整它们的重要性（由 Alpha 和 Gamma 表示）。这些值是在广泛的实验后得出的，基于工程师想要做出的权衡，最终决定线长是最重要的因素。

如何在非可验证领域设置奖励？

非可验证领域包括写作或战略等领域，在这些领域中不存在明确的正确答案。对于是否可以在这些领域进行 RL，一直存在一些怀疑。我们认为可以。实际上，这已经做到了。

这需要改变奖励机制。而不是依赖于正式的验证器来检查，其他模型可以根据标准来判断答案是否正确。

OpenAI 使用 RL 改变模型行为，这种行为比数学更不明确。OpenAI 的深思熟虑对齐论文在其过程中使用 RL，以确保模型更安全且更少出现错误拒绝，同时使用 LLM 作为评判员和标准。此外，该过程仅使用合成数据。如前所述，他们还发现这种方法“在分布外的安全场景中实现了强大的泛化能力”。这种在非可验证方法上的 RL 被用于 o1、o3-mini 和 o4-mini 的训练中，并将继续用于未来的推理模型。

能够推理不仅有助于解决数学问题，还对许多其他任务（包括非可验证任务）有帮助。例如，在许多情况下，推理帮助模型更好地划分拒绝的必要情况和非必要情况。然而，不可否认的是，在非可验证领域中，某些因素比其他因素更重要。例如，模型的个性在很大程度上影响写作风格。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

在非可验证领域，RL 也更具波动性——GPT-4o 的谄媚行为部分是由于 OpenAI 在用户偏好数据上进行 RL 的结果。这是一个例子，一个善意的奖励函数导致了不良且不受欢迎的行为。

RL 帮助你更好地进行 RL

改进模型的 RL 可以直接增强 RL 过程本身，从而形成一个有益的反馈循环。这是因为通常使用带有标准的 LLM 评判员来提供 RL 信号，如上所述。使用推理模型作为 LLM 评判员意味着模型更好地理解标准，并且能够通过给定的回答更好地辨别细微差别。

OpenAI 的深度研究也被誉为因 RL 而在非可验证领域取得进展的一个例子。实际上，OpenAI 同时使用了具有真实答案的可验证任务和非可验证任务。需要理解的是，如前面的例子所示，非可验证任务是由另一个带有标准的 LLM 来评判的。

使用 LLM 作为评判员也被用于开发阿里巴巴的 Qwen-3，它利用了大量的合成数据语料库，并结合使用 LLM-评判员在没有参考答案的情况下提供信号。

我们认为标准为许多领域打开了大门。在另一个例子中，OpenAI 展示了模型在各种医疗保健任务中的表现。OpenAI 汇集了 260 多名医生编写评判标准，评判模型在评估回答时可以使用这些标准。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

HealthBench 是一个出色的评估，值得称赞的是 OpenAI 发布了它。

该评估还反映了 LLM 评判员在衡量非可验证奖励方面的表现有多有用。如果可以衡量，就可以通过 RL 进行改进。这突显了 RL 和评估之间一个被低估的关系——后者可以显示 RL 运行的情况。

Environments

要进行 RL，你需要强化一个行动或结果。需要一个环境，以便模型或智能体能够获得反馈，从而了解下一步该采取什么行动。这导致了 RLEF，强化学习执行反馈 的出现，即，当我们在环境中运行模型生成的代码，并将结果用作奖励信号时。

环境是模型采取行动并获得反馈的设置或模拟。国际象棋和围棋等棋类游戏是环境的绝佳例子：目标明确，规则清晰。随着通用性增加，我们得到了像智能体在视频游戏中赛车或在生物反应器模拟中控制一组特定参数这样的领域。再往后，我们得到了像数学、代码，甚至是浏览器这样的领域。

不同配置的环境可能导致不同的智能体行为。配置不当的环境可能导致模型误解任务或无法正确泛化。这可能导致“奖励黑客”，我们稍后将在本报告中提到。

因此，工程稳健的环境，使奖励函数完全按照要求定义，极为困难。即使在需要简单环境的领域，如编程，大量使用单元测试会使模型专注于编写能够通过单元测试的代码，而不是编写好的代码。因此，一个工程挑战是设置一个忠实于目标（编写好的代码）的环境。

设置环境以拥有正确的奖励函数是一回事，但另一方面是将其工程化得很好。创建可扩展、稳健的环境是一个关键的技术挑战。

环境有许多要求。一个例子是延迟。智能体采取行动与环境受到影响之间的延迟很重要，此外智能体快速获得反馈也很重要。否则，大量时间的尝试都花在智能体等待下一步行动上。其他考虑因素包括保持稳定可靠的连接，以免崩溃并中断进程，结合容错和检查点功能，以便故障能够优雅地处理，这些都需要设置。需要很好地处理多个不同的尝试或轨迹。还需要一个完整的安全基础设施来支撑这一切，以保护模型免受外部渗透或试图逃离环境的侵害。

还有来自模型自身的几种故障模式，使事情变得困难，比如采取耗尽机器可用资源的行动。工程环境涉及保护模型免受自身伤害，维护足够安全的基础设施，以及围绕延迟和可靠性的一系列工程挑战。它们还需要准确地代表模拟或环境，以便智能体能够正确地了解需要改进的地方，同时又无法被利用。

所有这些要求使得首次扩展环境变得相当困难。正如我们稍后将提到的，模型的更长连贯时间甚至使得简单环境难以维护。这在计算机使用等案例中尤其如此，我们将在后面的部分中更深入地探讨。

尽管基础设施工程可能看起来很平凡，但它对于成功的 RL 至关重要。如果尝试时间过长，验证模型将保持空闲，浪费资源。因此，重要的是要弄清楚如何将该模型用于其他用途（例如，评判另一个尝试）。

这些软件限制随后必须符合硬件约束。例如，大多数环境只在 CPU 服务器上运行，而不是在 GPU 上。这意味着要在外部专用机器上运行，这又增加了一层工程难度。

重要的是要记住，大多数公开的 RL 环境都集中在与评估相关以衡量性能的 单轮问题 上。像 OpenAI 的 o3 这样的模型是建立在利用 多次工具调用 的环境上的。我们在后面的部分中将展开如何构建 o3 模型，但这也带来了另一组挑战，因为随着工具调用的增加，环境的复杂性也随之增加。

Reward Hacking

如上所述，设置正确的奖励可能很困难，因为模型可能会误解目标，并以不理想的方式进行优化。当模型利用环境或奖励结构中的漏洞，在没有真正完成预定任务的情况下获得高分时，就会发生奖励黑客。奖励黑客长期以来一直被认为是一个重大问题，特别是在 2016 年，像 Dario Amodei（现为 Anthropic 的首席执行官）等研究人员就强调了这一点。例如，一个被奖励将红色方块放置在蓝色方块上方的机器人手臂，通过将红色方块倒置而不是正确堆叠来利用奖励漏洞。这是因为奖励是根据方块底部的高度来判断的。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

展示了一种不同的故障模式，一个在物理模拟中设计用于教机器人行走的智能体发现了一个软件漏洞，允许其在不实际迈步的情况下实现水平移动。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

在 LLM 的案例中，Claude 3.7 Sonnet 通过更改测试用例而不是改进代码以通过原始测试来展示奖励黑客行为。例如，第三方评估者发现 Claude 会直接编辑“测试”文件，使所有测试都通过，而不是编写能够通过原始测试的代码。Anthropic 识别到了这一问题，尽管他们实施了部分缓解措施，但在 Claude 3.7 中该模式仍然可见。

虽然这些案例很有趣，但问题是工程师们总是在智能体发现环境中的漏洞后，才意识到奖励函数描述不准确或环境存在漏洞。许多这些奖励黑客实例都是设计者从未考虑过的路径，虽然在训练过程中可以进行迭代，但对于 LLM 来说这很难做到。虽然机器人环境在其目前的初级发展阶段更容易调整，但大型语言模型具有庞大而复杂的行动空间，使得奖励黑客更难防范。

解决奖励黑客问题是所有实验室的首要任务，将借鉴许多来自安全导向团队的想法。这是另一个安全和对齐努力对推动企业和企业采用至关重要的例子。

在 Claude 4 发布中，Anthropic 通过改进环境、明确奖励信号以及实施主动监控，显著减少了奖励黑客行为。这并非易事，需要大量的专业知识和经验。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

但 RL 和奖励黑客并非唯一的瓶颈，基础设施本身就是一个很大的瓶颈。这从 RL 所需的数据开始。

数据和样本效率

乍一看，RL 似乎非常样本高效：在训练 Qwen 模型的“推理 RL”阶段，不到 4,000 个问答对。这与基础模型相比，在性能上取得了显著的提升，并声称具有很强的样本效率。

然而，实际情况更为复杂。这 4,000 个问答对都有严格的要求：它们不应在模型的冷启动阶段（训练的一个先前阶段）使用过，必须尽可能具有挑战性，涵盖广泛的子领域，但又要处于模型的能力范围内。

这些并非不重要的要求。生成合适的合成数据需要进行广泛的过滤和反复的模型推理。此外，要求问题对模型来说既有挑战性又不过于困难，需要进行实验和验证，以确保问题处于这个狭窄的范围内。在某些情况下，如果数据不是合成生成的，实验室会招募 STEM 领域的博士来帮助编写对模型具有足够挑战性的问题和答案。这些博士还被招募来为 LLM 评判员编写标准。

像 ScaleAI、Mercor 和 Handshake 这样的公司现在从人工智能实验室那里获得了大量业务，以帮助进行这一招聘过程。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

Qwen 进行了 另一个 RL 阶段。为了尽可能地给人留下效率的印象，他们没有公布这一阶段的样本数量。这是因为这个数字比 4,000 大得多。

在这个阶段，他们在 20 多个不同的领域进行了 RL。他们还使用了所有三种类型的奖励模型（基于规则的、有和没有真实答案的 LLM-评判员）。这需要复杂的工程和计算。

从长远来看，我们预计实验室将在数百个专业领域进行 RL，以显著提升模型性能。质量比数量更重要——模型会精确地优化其训练数据——因此谨慎选择和过滤这些数据至关重要。

因此，虽然使用的样本数量为 4,000，但要达到这一水平需要大量的计算。可以认为，当涉及到数据时，RL 是样本高效的，但当涉及到计算时，它肯定不是样本高效的。与预训练相比，RL 需要更大的工程团队来有效设置。

数据是护城河

最终，Qwen 发出的信号是，高质量数据是扩展 RL 的一种独特重要的资源。高质量数据有助于为模型提供足够清晰的 RL 信号，使其能够准确地完成所需的任务。生成这些数据通常需要大量的推理。

公司或企业更广泛地可以聚合自己的数据，并使用像 OpenAI 的强化微调（RFT）这样的服务。RFT 允许使用自定义评分员，并允许企业根据评分员或数据的结果更新模型。我们认为这是一个被低估的发布，即使不考虑模型的进一步进展，它也可能产生巨大的影响。

实际上，拥有一个聚合或收集用户行为的产品是非常有价值的，因为这是最终最重要的数据集。这一有趣的影响是，拥有用户数据的人工智能初创公司可以在没有大量计算预算来合成生成数据的情况下，对自定义模型进行 RL。对于企业来说，如果能够设置正确的 RL 环境，那么为这些企业定制模型的时代可能就到来了。一般来说，与基础模型的不断进步相比，为企业微调模型通常会失败。

智能体任务的时间范围在增加

模型现在可以连贯地持续更长时间。更长时间的任务需要能够可靠地长时间运行的环境和基础设施，这加剧了工程需求。

下面的图表指出，自我包含的编码任务的翻倍趋势为 7 个月，但我们预计，除了编码之外的任务将具有更快的翻倍时间。OpenAI 的深度研究是第一个模型连贯工作超过几分钟的例子，我们预计这一上限将显著且迅速地提高。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

然而，这里存在一个矛盾。智能体任务极具经济价值，但由于其复杂性和资源密集性，给 RL 带来了巨大的挑战。

任务持续时间的延长意味着每个 RL 迭代也需要更长时间，从而减缓整个训练过程。

计算机使用是一个例子，它说明了长时间范围任务的许多问题。首先，作为一种智能体任务，它更接近现实世界的问题和行为，这带来了新的挑战。在计算机使用的情况下，智能体会遇到许多反机器人网络脚本、验证码和晦涩的 Cloudflare 保护功能。这种情况以一种相对零散的方式发生。这些细节为环境增加了一层以前不存在的调试。计算机使用需要大量的基础设施，如虚拟机和浏览器连接。这些现在需要稳定且长时间运行，此外还需要满足前面讨论的环境工程要求。

计算机使用任务通常会持续数小时。这意味着尝试变得更长，而奖励变得更稀疏。换句话说，智能体采取了十倍的步骤，但只对最后一个标记给予奖励。这使得 RL 信号更弱。计算机使用还依赖于图像和视频来向模型展示发生了什么。尽管已经有人尝试通过流式传输 HTML 文件或设置网页的文字表示来实现计算机使用，但模型在这种情况下并不理解图像所代表的内容。使文字表示能够工作将减少计算机使用的内存需求。

环境计算

我们看到了在 环境计算 上投入的巨大潜力，而不仅仅是 RL 计算。一个例子是使用数十个甚至数百个 CPU 协同工作的高度逼真且难以奖励黑客的环境。这是一个全新的领域，有很大的扩展空间。这种逼真性可能会由于清晰的信号而带来令人难以置信的性能提升。

这些环境在未来也将在 GPU 上运行，这些 GPU 正在模拟现实世界的数字孪生。值得注意的是，这些 GPU 有不同的要求，仍然具有图形 / 渲染能力，例如 RTX Pro GPU 或客户端 GPU。像 H100、B200、TPU、Trainium 等专门用于 AI 的 GPU 和 ASIC 缺乏重要的图形 / 渲染相关硬件。因此，也有大量的资源被投入到构建 AI 世界模型用于 RL 环境中，而不是前面描述的正常 RL 环境。这将使扩展变得更容易，否则由于所有异构类型的软件和硬件，环境的复杂性将会爆炸式增长。

可靠、可扩展、易于实现的环境将极度需求，我们预计这将成为初创公司运营的一个不断增长的领域。已经有一些公司开始了。一些能力不是被模型能力所限制，o3 足够智能，可以完成大多数任务，而是与世界互动和收集上下文的能力。

我们认为这对于科学人工智能特别令人兴奋——可以设置与实验室中任何可测量的东西相连的环境，例如。这样的设置将使人工智能智能体能够控制物理世界，操纵和改变不同的因素，同时从环境中获得反馈。在某些情况下，如控制炉子中的温度，反馈循环可以相对较快，模型可以快速迭代。

然而，在实验时间较长的其他有价值的任务中，模型将需要有匹配的连贯时间。加上需要多次尝试，这可能导致一个计算上和物理上都要求很高的设置。

在生物学、半导体制造以及其他材料科学领域，重要的是要考虑模型正在运行和测试的尝试 / 消融的反馈循环。这些生物、制造和工业过程在运行速度和验证速度上有一定的限制。

某些领域将需要更长时间才能受到 RL 计算的影响，而其他领域由于快速的反馈循环将迅速发生变化。物理人工智能本质上比数字世界具有更慢的反馈循环，因此需要真正强大的数字孪生环境。

与评估的类比

作为一个粗略的类比，模型评估在概念上更简单，但也很难运行。Docker 镜像经常失败，多项选择题中的简单格式变化（例如，从（A）到（1））可能会使模型的评估表现变化高达 5%。当评估基础设施刚开始扩展时，Anthropic 公开讨论了评估的工程挑战。GPQA 是一个常用的评估，用于测试模型在物理、化学和生物等研究生水平问题上的表现，似乎存在一个“噪声上限”。尽管它显示模型停滞不前，但由于答案标记错误，不可能达到 100%。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

在许多方面，随着智能体任务时间的延长，问题变得更糟。模型可以采取的行动空间大幅增加，它们的连贯时间也在增加，创建能够评估这些长时间范围能力的评估是具有挑战性的。这也使它们变得更加昂贵。

评估基础设施并非新事物，概念上也很简单，但却是一个因千万次小问题而死亡的过程。设置大型 RL 基础设施并扩展它是一个因数千万次更多问题而死亡的过程。

RL 改变了硬件和数据中心建设的平衡

Nvidia NVL72 系统对于 GB200 和 GB300 在推理领域实现了关键进步。增加的计算能力使得在更低延迟下实现更大的吞吐量成为可能，共享内存使得可以扩展更大的世界规模以覆盖 KV 缓存。虽然这使得推理阶段的推理模型能够更好地进行批处理，但这也对 RL 产生了重大影响。

对于 RL 来说，增加的内存使得许多不同的能力成为可能。首先，它允许针对给定问题进行更多的尝试。其次，它能够更好地处理长时间范围的智能体任务。第三，它更好地容纳了更大或更多的推理模型作为评判员，这在非可验证领域特别有帮助。第四，这种范式高度依赖于合成数据的生成和过滤，这依赖于推理，而 NVL72 系统在这方面表现出色。未充分利用是这一过程中的一个难点。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

在线 RL 的情况下，最后一个尝试完成和第一个之间可能存在时间差异。很难对所有不同的采样副本进行负载均衡。权重的广播也可能导致显著的未充分利用，因为不同的采样器和训练器有不同的拓扑结构。

在 RL 的所有阶段都需要推理，但推理 并不像预训练时代那样需要集中化 。RL 需要大量的计算能力，但不需要位于同一位置。

例如，一个领域的合成数据可以在一个数据中心生成和验证，但训练过程可以在完全不同的一个数据中心进行。随着 RL 占据计算的主导地位，我们可能会看到数据中心建设的转变。虽然最大的多吉瓦数据中心仍将需要用于预训练扩展，但关于 RL 能够去中心化到什么程度，目前还没有定论。

与一次占用数万个 GPU 的预训练不同，RL 的推理时间可以根据容量进行调整。这意味着实验室现在可以在非高峰时段利用 GPU，例如，用于其 RL 流程中的合成数据生成。

实际上，我们知道至少有一个实验室正在利用未充分利用的推理集群运行这一过程，从而有效地将通过合成数据生成的免费计算提供给训练。实验室和使更多计算能力提供给模型（而不仅仅是最大的训练集群）之间的推理和训练的界限将继续模糊。这些未充分利用的计算能力实际上被免费提供给训练，因为推理集群需要为高峰需求进行配置。

Prime Intellect 在他们的 Intellect-2 模型中展示了 RL 的去中心化特性，这是一个全球分布式的推理模型的 RL 运行。

在硬件设计方面，增加的推理和长时间范围的智能体任务使得内存变得更加重要。RL 使用的浮点运算比预训练少，但仍然有沉重的内存负载。从长期来看，硬件开发将发生变化以适应这一点。这包括其他因素，如网络拓扑结构。我们看到 RL 不仅改变了硬件设计，还改变了研究的编排方式。

RL 改变了实验室的结构

对于语言模型的 RL 是第一个推理真正与训练过程交织在一起的案例。推理性能现在直接影响训练速度 。这意味着生产级推理（快速、高效、便宜）现在是模型训练过程的一个组成部分。

每个实验室以前都对“产品服务推理”和“内部推理”（例如，用于评估）进行了区分。但由于 RL 需要大量的推理，因此至关重要的是要建立直接“嵌入”训练堆栈的超优化推理堆栈。

我们在公司结构中看到了这一点。OpenAI 将研究和应用研究推理团队合并。同样，Anthropic 和谷歌也因为这个原因对其生产和内部团队进行了重大的重组。

RL 是一种推理游戏，但中国缺乏芯片

这一范式转变的一个结果是推理所需的大量计算能力。在中国的情况下，出口管制极大地限制了可用的计算资源，减缓了他们的研究测试。对于 RL 来说，计算能力有限意味着尝试次数更少，数据生成和过滤速度更慢，以及实验和验证的延迟。在短期内，这并不重要，因为今年用于 RL 的计算能力仍然在数万个 GPU 的范围内。

从中期来看，中国的生态系统仍将受到计算能力的限制。H20 和 H20E（H20 的一个内存更多的变体）的禁令严重削弱了推理能力，这对于 RL 来说至关重要。正如我们之前提到的，H20 的推理性能比 H100 更好。

除了部署新模型的速度更慢之外，中国企业还将在将模型提供给客户方面面临问题。DeepSeek 应对限制的方式是以极慢的速度（每秒 20 个标记）提供模型，这阻碍了用户体验，以便尽可能多地将多个响应组合在一起。这为内部使用保留了尽可能多的计算能力。DeepSeek 目前在生产中没有使用华为 Ascend 芯片，只使用英伟达的芯片，因为后者性能更好，但他们会开始使用。

这一结果的重要性怎么强调都不为过。由于这一禁令，中国错过了数百万个芯片。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

华为正在积极扩大 Ascend 910B 和 910C 系列的采用。华为 Ascend 系列的主要客户是阿里巴巴和字节跳动，他们购买了华为芯片，并深度参与了下一代版本研发过程的反馈。

除了华为通过规避出口管制从 TSMC 获得的 290 万个芯片外，我们还看到国内 SMIC 生产大幅增加，我们目前估计 2025 年国内将生产 38 万个 Ascend 910C，明年随着产量的提高以及 SMIC 北京 N+2 工厂上线（除了上海工厂外），产量将达到数百万。

字节跳动和阿里巴巴也在开发自己的定制芯片，并且我们正在密切关注我们的加速器模型。

RL 允许频繁更新模型

预训练阶段和当前阶段的一个明显区别是，RL 可以在模型发布后进行。这意味着模型可以发布，RL 可以继续进行以扩展能力，然后模型再次更新。这种迭代开发可以用于逐步向现有模型添加功能。这正是 DeepSeek R1 的新版本所发生的情况。

这适用于一般性的后训练——当前的 GPT-4o 已经多次更新，不再是最初发布的那个 GPT-4o 模型。

我们预计，由于这种新范式，Anthropic 将比之前更多次地更新他们的 Claude 模型。

递归自我改进已经开始发挥作用

我们之前提到过，通过更好的模型在 RL 期间成为更好的评判员来实现自我改进，但还有另一个重要的维度需要考虑。想法是模型本身帮助训练和编码下一个模型。Claude 4 系统卡提供了一个具体的视角，让我们了解实验室的想法。Anthropic 对编译器开发、内核工程甚至四足动物的 RL 进行了评估。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

事实是，实验室所做的一大块工作是艰难的工程工作，目的是从可用硬件中榨取每一点性能。编译器、内核、内存管理优化、超参数调整等都是可以测量和改进的编码任务。它们每一个都对模型的效率产生了巨大的影响。递归自我改进通常被称为一个具有迷人后果的诱人术语，但现实是它已经在一定程度上发生了。实验室也可以通过在这些任务上进行 RL 并拥有许多内部模型变体来加倍努力。

最初，它将主要围绕那些不引人注目的繁琐工作，并逐渐进入研究新架构的工作。

当前模型并没有大幅加快开发速度。但 OpenAI 的 Codex 工具已经帮助员工构建下一个版本。思考自我改进的方式是，模型将使工程师花更少的时间编码，更多的时间思考与研究和数据相关的话题。在一定程度上，模型开发受到工程努力的限制，这些瓶颈将得到解决。然而，实际上，模型开发受到多种其他因素的限制，包括对计算能力的访问。真正的递归自我改进将极大地加快研究和数据的速度。

Tool Use and o3

RL 的有效性在 o3 模型中得到了清晰的展示，尤其是通过其对外部工具的先进使用。o3 表明，智能是有用的，但能够访问工具并很好地使用它们更有用。OpenAI 做了几件事来启用这一功能。首先是确保模型能够访问工具。这可以作为报告中提到的更广泛的基础设施的一部分来完成（例如，访问环境）。在模型级别，可以通过特殊标记来触发对工具的访问。例如，模型使用像 <search> 这样的特殊标记来触发外部搜索，这些搜索返回可以直接在其推理过程中使用的结构化结果。给模型提供多个不同的特殊标记，使其能够快速轻松地访问不同的环境。

用户：“苏黎世的人口密度是多少（人 /km²）？”

───────────────────────────────────────────────────────────────

助手（第 1 轮）

<think>

需要人口和面积 → 然后进行除法。

</think>

<tool>search_web{"query":"苏黎世人口"}</tool>

</answer>

────────────────────────────────────────────────────────────────

运行时（执行第一个 <tool>）

# observation[0]: "苏黎世人口：402 762"

────────────────────────────────────────────────────────────────

助手（第 2 轮 - 看到 observation[0]）

<think>

人口 = 402 762。下一步：获取面积。

</think>

<tool>search_web{"query":"苏黎世面积 km²"}</tool>

</answer>

────────────────────────────────────────────────────────────────

运行时

# observation[1]: "苏黎世面积：87.88 km²"

────────────────────────────────────────────────────────────────

助手（第 3 轮）

<think>

现在计算密度 = 402 762 / 87.88。

</think>

<tool>python{"code":"402762 / 87.88"}</tool>

</answer>

────────────────────────────────────────────────────────────────

运行时

# observation[2]: "4586.4"

────────────────────────────────────────────────────────────────

助手（第 4 轮 - 最终回复）

<think>

撰写文字回答并引用两次搜索结果。

</think>

苏黎世的人口密度约为 **4 586 人 /km²**

（使用人口 = 402 762 和面积 = 87.88 km²）。

来源：搜索结果 [0]，搜索结果 [1]。

</answer>

另一个挑战是选择正确的训练问题集。即使模型能够访问工具，如果不需要，它也可能根本不使用它们。有效训练模型涉及提出足够困难的问题，以迫使模型使用工具，确保模型自然地学会利用外部资源。这很难做到正确，需要大量的测试来验证。然而，过度使用工具可能会降低性能，使奖励信号复杂化，降低整体效率。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

其他因素包括确保尝试有许多初始状态，每个起点有多个响应，以帮助稳定性和学习效率，为格式错误的输出添加惩罚，以及为正确使用的标签添加奖励。

制造 o3 需要为模型提供对多个工具的访问（例如，通过特殊标记）并在迫使模型使用这些工具的问题上进行训练。

为什么 o3 会幻觉

尽管 o3 在查找和研究方面表现出色，但它却以幻觉而闻名。该模型经常会编造内容。随着 RL 计算的扩展，这一问题变得更加严重。为什么会这样？

我们认为这与这些模型的训练方式有关。通常，模型仅因正确结果而获得奖励，而不是因错误推理而受到惩罚，这使它们能够通过有缺陷的逻辑实现准确性。

例如，一个模型可能在误解规则的情况下赢得一场简单的棋类游戏，错误地学习到其有缺陷的推理是可以接受的。这不仅没有因模型思考错误而对其进行惩罚，反而积极地奖励了它们。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

我们预计这种行为不仅仅适用于棋类游戏。这无意中教会了模型在新的、未经训练的情境中幻觉，将有缺陷的推理扩展到更广泛的背景中。使用推理模型作为评判员将在这方面提供一些帮助，因为它们可以纠正整个推理轨迹。其他想法包括更具具体的奖励信号，对每个标记进行不同的奖励，对错误逻辑进行惩罚，同时对正确答案进行奖励。

需要明确的是，这种错误的奖励行为可能对代码等产生影响。模型可能会编写糟糕的代码，但仍通过单元测试。这进一步强化了拥有正确奖励函数的必要性。

接下来，我们探讨 RL 的不同训练方法，以及它如何迫使实验室做出在预训练时代不需要做出的权衡。我们还探讨了如何扩展以获得更好的小型模型。最后，我们深入探讨 OpenAI 的推理模型 o4 和 o5 的未来，包括它们将如何以与以前模型不同的方式训练和发展。

文章来自于“human five”，作者“AI椰青”。

扩展强化学习：环境、奖励黑客、智能体、数据扩展

关键词: AI , 模型训练 , 强化学习 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner