AI资讯新闻榜单内容搜索-强化学习

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

5651 点击 2025-04-28 14:09

全球首个去中心化强化学习训练的32B模型——INTELLECT-2震撼发布！无需授权，就能用自家异构计算资源参与其中，让编码、数学与科学领域的推理性能迈向新高度。

来自主题: AI资讯

9100 点击 2025-04-27 09:38

本文提出 LUFFY 强化学习方法，一种结合离线专家示范与在线强化学习的推理训练范式，打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引，并引入混合策略优化与策略塑形机制，稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报

6614 点击 2025-04-27 09:22

什么开源算法自称为DeepSeek-R1（-Zero）框架的第一个复现？

来自主题: AI技术研报

7062 点击 2025-04-25 15:35

谷歌DeepMind与HHMI Janelia研究所的科学家们，用AI打造了一个栩栩如生的虚拟果蝇模型。这个模型不仅能精准模拟果蝇的飞行与行走，还通过深度强化学习模仿真实果蝇的行为。

来自主题: AI资讯

9141 点击 2025-04-25 10:31

无需数据标注，在测试时做强化学习，模型数学能力暴增159%！

来自主题: AI技术研报

7938 点击 2025-04-24 16:55

Adam优化器是深度学习中常用的优化算法，但其性能背后的理论解释一直不完善。近日，来自清华大学的团队提出了RAD优化器，扩展了Adam的理论基础，提升了训练稳定性。实验显示RAD在多种强化学习任务中表现优于Adam。

来自主题: AI技术研报

7993 点击 2025-04-23 14:09

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明，大规模强化学习已成为一种极为有效的方法，能够激发大型语言模型（LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报

6884 点击 2025-04-23 14:04

只靠模型尺寸变大已经不行了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。

来自主题: AI技术研报

7215 点击 2025-04-22 16:58

AI的野心从未如此大胆！新创公司Mechanize目标直指「全面自动化所有工作」和「经济无人化」，瞄准全球60万亿美元的劳动力市场。从虚拟工作环境到强化学习，Mechanize计划用AI智能体取代人类岗位，引发巨大争议。

来自主题: AI资讯

9018 点击 2025-04-22 09:06