AI资讯新闻榜单内容搜索-RL

MIT成果登Nature正刊：90天，「AI科学家」完成3500次电化学测试

美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文，展示了一种多模态机器人平台CRESt（Copilot for Real-world Experimental Scientists），通过将多模态模型（融合文本知识、化学成分以及微观结构信息）驱动的材料设计与高通量自动化实验相结合，大幅提升催化剂的研发速度和质量。

来自主题: AI技术研报

8992 点击 2025-10-20 15:36

GPT-5≈o3.1！OpenAI首次详解思考机制：RL+预训练才是AGI正道

在某种程度上，GPT-5可以被视作是o3.1。该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访，而Jerry其人，正是o1模型的主导者之一。

来自主题: AI资讯

8254 点击 2025-10-20 15:26

无奖励也能把Agent练硬，Meta发布早期经验学习，隐式建模+反思（附提示词）

Meta提出早期经验（Early Experience）让代理在无奖励下从自身经验中学习：在专家状态上采样替代动作、执行并收集未来状态，将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可规模化的监督。

来自主题: AI技术研报

9629 点击 2025-10-20 11:54

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

在 LLM 领域，扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子，还有几个关键问题悬而未决：如何 scale？scale 什么是有价值的？RL 真的能如预期般 scale 吗？

来自主题: AI技术研报

9961 点击 2025-10-19 17:54

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

从ChatGPT到DeepSeek，强化学习（Reinforcement Learning, RL）已成为大语言模型（LLM）后训练的关键一环。

来自主题: AI技术研报

8386 点击 2025-10-18 11:41

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

目前，所有主流 LLM 都有一个固定的上下文窗口（如 200k, 1M tokens）。一旦输入超过这个限制，模型就无法处理。即使在窗口内，当上下文变得非常长时，模型的性能也会急剧下降，这种现象被称为「上下文腐烂」（Context Rot）：模型会「忘记」开头的信息，或者整体推理能力下降。

来自主题: AI资讯

8165 点击 2025-10-17 16:12

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

8814 点击 2025-10-17 09:48

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报

7510 点击 2025-10-15 14:19

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报

9053 点击 2025-10-15 12:07

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

大语言模型在RLVR训练中面临的“熵困境”，有解了！

来自主题: AI技术研报

8835 点击 2025-10-14 10:57