AI资讯新闻榜单内容搜索-强化学习

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

6810 点击 2025-07-31 10:10

开启RL Scaling新纪元，siiRL开源：完全分布式强化学习框架，支持超千卡规模高效训练

还在为强化学习（RL）框架的扩展性瓶颈和效率低下而烦恼吗？

来自主题: AI技术研报

9050 点击 2025-07-30 10:15

“伯克利四子”罕见同台，我们整理了WAIC最豪华具身论坛

陈建宇（星动纪元创始人）、高阳（千寻智能联合创始人）、吴翼（蚂蚁集团强化学习实验室首席科学家）、许华哲（星海图联合创始人）的分享（题图从左至右），基本代表了国内具身智能领域最先进的成果展示。

来自主题: AI资讯

10932 点击 2025-07-28 10:42

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

7863 点击 2025-07-28 10:36

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

在正式走近ChatGPT Agent之前，让我们介绍一下这次谈话的几位主角，他们分别是OpenAI团队核心成员Isa Fulford、Casey Chu和孙之清。我们团队分别开发了Operator和Deep Research，在分析用户请求时发现，Deep Research的用户非常希望模型能够访问需要付费订阅的内容或有门槛的资源，而Operator恰好具备这种能力。

来自主题: AI资讯

9872 点击 2025-07-24 09:50

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道，训练大模型本就极具挑战，而随着模型规模的扩大与应用领域的拓展，难度也在不断增加，所需的数据更是海量。大型语言模型（LLM）主要依赖大量文本数据，视觉语言模型（VLM）则需要同时包含文本与图像的数据，而在机器人领域，视觉 - 语言 - 行动模型（VLA）则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯

8568 点击 2025-07-22 14:57