AI资讯新闻榜单内容搜索-强化学习

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报

8138 点击 2025-10-15 12:07

腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

让智能体自己摸索新方法，还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。

来自主题: AI技术研报

7546 点击 2025-10-13 15:45

刚刚，Meta风雨飘摇中发了篇重量级论文，作者几乎全是华人

风雨飘摇中的Meta，于昨天发布了一篇重量级论文，提出了一种被称作「早期经验」（Early Experience）的全新范式，让AI智能体「无师自通」，为突破强化学习瓶颈提供了一种新思路。

来自主题: AI技术研报

9228 点击 2025-10-12 11:01

开源编程模型王座易主了，谁能想到新SOTA是快手

开源编程模型王座，再度易主！来自快手的KAT-Dev-72B-Exp，在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一。KAT-Dev-72B-Exp是KAT-Coder模型的实验性强化学习版本。

来自主题: AI资讯

11407 点击 2025-10-11 15:57

任意Agent皆可强化学习！微软推出Agent Lightning框架，无需修改任何代码

AI Agent已逐渐从科幻走进现实！不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务，甚至还可以进行端到端的软件开发，已经在金融、游戏、软件开发等诸多领域落地应用。

来自主题: AI技术研报

8849 点击 2025-10-11 11:44

Qwen要做机器人了：林俊旸官宣成立具身智能团队

昨天，阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣，他们在 Qwen 内部组建了一个小型机器人、具身智能团队，同时表示「多模态基础模型正转变为基础智能体，这些智能体可以利用工具和记忆通过强化学习进行长程推理，它们绝对应该从虚拟世界走向物理世界」。

来自主题: AI资讯

8927 点击 2025-10-09 14:24

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

6687 点击 2025-10-09 11:16

从「知题」到「知人」：UserRL让智能体学会「以人为本」

来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案：UserBench —— 首次将 “用户特性” 制度化，构建交互评测环境，用于专门检验大模型是否真正 “懂人”；UserRL —— 在 UserBench 及其他标准化 Gym 环境之上，搭建统一的用户交互强化学习框架，并系统探索以用户为驱动的奖励建模。

来自主题: AI技术研报

8993 点击 2025-10-08 11:45

清华、NVIDIA、斯坦福提出DiffusionNFT：基于前向过程的扩散强化学习新范式，训练效率提升25倍

清华大学朱军教授团队，NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习（RL）范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设，直接在前向加噪过程（forward process）上进行优化

来自主题: AI技术研报

10130 点击 2025-10-08 11:43

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA（问题增强）引入了一种方法，用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示，QuestA 实现两项重大成果

来自主题: AI技术研报

8404 点击 2025-10-06 13:54