AI资讯新闻榜单内容搜索-强化学习

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

传统智能体系统难以兼顾稳定性和学习能力，斯坦福等学者提出AgentFlow框架，通过模块化和实时强化学习，在推理中持续优化策略，并使小规模模型在多项任务中超越GPT-4o，为AI发展开辟新思路。

来自主题: AI技术研报

8450 点击 2025-11-04 10:43

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生，研究方向包括强化学习和基础模型等，研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计

来自主题: AI技术研报

8774 点击 2025-11-01 09:24

刚刚，Kimi开源新架构，开始押注线性注意力

月之暗面在这一方向有所突破。在一篇新的技术报告中，他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法，包括短文本、长文本以及强化学习的 scaling 机制。

来自主题: AI技术研报

7469 点击 2025-10-31 14:33

单条演示即可抓取一切：北大团队突破通用抓取，适配所有灵巧手本体

在灵巧手通用抓取的研究中，由于动作空间维度高、任务具有长程探索特征且涉及多样化物体，传统强化学习（RL）面临探索效率低、奖励函数及训练过程设计复杂等挑战。

来自主题: AI技术研报

6626 点击 2025-10-30 10:26

Cursor 2.0 发布首个编程大模型Composer！代码生成250tokens/秒，强化学习+MoE架构

最新进展，Cursor 2.0正式发布，并且首次搭载了「内部」大模型。没错，不是GPT、不是Claude，如今模型栏多了个新名字——Composer。实力相当炸裂：据官方说法，Composer仅需30秒就能完成复杂任务，比同行快400%

来自主题: AI资讯

8527 点击 2025-10-30 09:14

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

强化学习是近来 AI 领域最热门的话题之一，新算法也在不断涌现。

来自主题: AI技术研报

6883 点击 2025-10-29 16:37

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

来自主题: AI资讯

9311 点击 2025-10-29 11:12

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

10137 点击 2025-10-29 10:24

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

10200 点击 2025-10-28 14:56

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

8529 点击 2025-10-28 10:50