AI资讯新闻榜单内容搜索-RL

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA（问题增强）引入了一种方法，用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示，QuestA 实现两项重大成果

来自主题: AI技术研报

9193 点击 2025-10-06 13:54

100 页 Agentic RL 综述！牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校，伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者，共同撰写并发布了长达百页的综述：《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报

9648 点击 2025-10-03 14:15

斯坦福洗碗机器人新作！灵巧手跟人学采茶做早餐，CoRL 2025提名最佳论文

来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡耐基梅隆大学、英伟达提出了一种数据采集与策略学习框架DexUMI——利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手。该框架通过硬件与软件的双重适配，最大限度缩小人手与各类灵巧手之间的具身差异。

来自主题: AI资讯

10715 点击 2025-10-03 11:46

大神爆肝一个月，复刻DeepMind世界模型，300万参数就能玩实时交互像素游戏

最近，X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想，开发出了 TinyWorlds，一个仅 300 万参数的世界模型，能够实时生成可玩的像素风格环境，包括 Pong、Sonic、Zelda 和 Doom。

来自主题: AI资讯

9888 点击 2025-09-29 11:02

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

来自主题: AI技术研报

10632 点击 2025-09-28 23:03

AI正在偷走白领工作！OpenAI狂砸10亿教AI上班，你的完美继任者即将上岗

Anthropic、OpenAI等大厂，正计划每年投入10亿美元，教会AI像人类一样工作。他们不仅为AI提供强化学习环境（RL environment，简称gym），还让AI「偷师」各领域专家。OpenAI高管预言，未来「整个经济」，将在某种程度上变成一台「RL机器」。

来自主题: AI资讯

9694 点击 2025-09-28 17:23

RLHF与RLVR全都要，陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前，我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后，会离开普林斯顿，全职加入 Thinking Machines Lab。

来自主题: AI技术研报

8359 点击 2025-09-28 16:46

“AI科学家”登顶Nature：MIT团队开发多模态AI平台，全程无人干预90天即发现高效电催化剂

近日，为了加速多元素催化剂的发现与优化，美国麻省理工学院团队开发了一个多模态机器人平台——CRESt（Copilot for Real-world Experimental Scientists）。该平台能够结合自动化设备、大规模模型和实验室监测，在实验设计中融入人类经验、文献知识和显微结构信息，从而加速多元素催化剂的发现和优化加速发展。

来自主题: AI资讯

10311 点击 2025-09-27 20:35

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而，现有训练范式存在一些核心瓶颈，比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报

8989 点击 2025-09-27 11:13

首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

开源框架实现100%可复现的稳定RL训练！下图是基于Qwen3-8B进行的重复实验。两次运行，一条曲线，实现了结果的完美重合，为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。

来自主题: AI技术研报

8050 点击 2025-09-27 10:19