AI资讯新闻榜单内容搜索-强化学习

后训练中的RL已死？MIT新算法挑战传统后训练思维，谢赛宁转发

在当前的 LLM 开发中，后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为，模型必须通过强化学习（如 PPO、GRPO 或 RLHF）和进化策略（ES）等算法，在反复的迭代和梯度优化过程中调整权重，才能在特定任务上达到理想的性能。

来自主题: AI技术研报

5819 点击 2026-03-16 14:26

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

大语言模型（LLM）的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日，研究人员提出了一种名为行为校准强化学习（Behaviorally Calibrated Reinforcement Learning）的新方法，通过重新设计奖励函数，让模型学会「知之为知之，不知为不知」。

来自主题: AI技术研报

8102 点击 2026-03-13 10:10

真·养虾！3步让龙虾边聊边进化，不用GPU不用数据集就能强化学习

让OpenClaw帮干活还不够，现在，程序员们正想方设法让🦞自己变强。

来自主题: AI技术研报

10204 点击 2026-03-12 14:51

可微奖励就该直接微调！用HJB方程颠覆流匹配对齐｜NeurIPS'25

用强化学习微调扩散模型，还有更好的办法吗？

来自主题: AI技术研报

7453 点击 2026-03-11 09:23

补齐OpenClaw进化拼图！AReaL v1.0开源，智能体强化学习「一键接入」

2026 开年已两个月，Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw（原 Clawbot）掀起的那波 Agent 热潮至今仍在发酵，甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报

9965 点击 2026-03-04 13:46

告别纯奖励试错！二次尝试+反思蒸馏，复杂任务提升81%

强化学习已经成为大模型后训练阶段的核心方法之一，但一个长期存在的难题始终没有真正解决：现实环境中的反馈往往稀疏且延迟，模型很难从简单的奖励信号中推断出应该如何调整行为。

来自主题: AI技术研报

8605 点击 2026-03-03 14:17

人脑细胞做成芯片打Doom！20万活体神经元自己探路杀敌，学习效率碾压深度强化学习

20万人类脑细胞组成“脑PU”，学会了玩经典游戏《毁灭战士》。这些活体神经元通过强化学习学会了找到敌人、开枪射击、转身移动，甚至弹药管理。

来自主题: AI资讯

8553 点击 2026-03-02 14:35

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO（World Model-based Policy Optimization），正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互，却能显著提升策略性能，甚至涌现出自我纠错（Self-correction）行为。

来自主题: AI技术研报

8401 点击 2026-03-02 14:31

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

当GRPO让大模型在数学、代码推理上实现质变，研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生，并被CVPR 2026接收。该研究不只是简单移植2D经验，而是针对3D生成的独特挑战，从奖励设计、算法选择、评测基准到训练范式，做了一套完整的系统性探索。

来自主题: AI技术研报

7511 点击 2026-02-27 10:28

AI资讯新闻榜单内容搜索-强化学习

后训练中的RL已死？MIT新算法挑战传统后训练思维，谢赛宁转发

4B模型幻觉抑制能力超越GPT-5，CMU等提出行为校准强化学习新方法

真·养虾！3步让龙虾边聊边进化，不用GPU不用数据集就能强化学习

可微奖励就该直接微调！用HJB方程颠覆流匹配对齐｜NeurIPS'25

补齐OpenClaw进化拼图！AReaL v1.0开源，智能体强化学习「一键接入」

推荐系统进入「双动力」时代！首篇LLM-RL协同推荐综述深度解析

告别纯奖励试错！二次尝试+反思蒸馏，复杂任务提升81%

人脑细胞做成芯片打Doom！20万活体神经元自己探路杀敌，学习效率碾压深度强化学习

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！