他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
7001点击    2025-12-08 08:57

2025年,AI大模型的竞争焦点正在发生根本性转移。


预训练的边际收益在下降,数据的红利在消退,整个行业都在寻找下一个增长引擎。答案越来越清晰:强化学习(RL)


DeepSeek V3.2的技术报告里有个细节很值得玩味——RL训练的算力投入已经超过预训练的10%,而且性能曲线还在往上走。OpenAI的o系列、Claude的推理能力、Gemini的多模态表现,背后都站着大规模RL。


强化学习正在从“锦上添花”变成大模型进化的主战场。


但这里有一个卡脖子的问题:在万亿参数模型上跑RL,成本高得离谱。

传统方法需要上千张顶级GPU,训练周期动辄数周,绝大多数团队根本玩不起。这不是技术问题,这是资源垄断——只有少数几家公司能负担得起这种规模的RL训练。


现在,这个局面被打破了。


来自Macaron AI背后的研究团队Mind Lab给出了他们的答案:全球首个在1T参数模型上实现的LoRA高效强化学习训练,GPU消耗直降90%。


这不是工程优化的小胜利,而是训练范式的根本性转变。NVIDIA Megatron-Bridge和Seed verl已官方合并这套技术,代码全部开源。


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


更硬核的是,这支10人研究团队的成员来自OpenAI、DeepMind、Seed,发表200+篇论文,累计被引用30,000+次。


万亿参数RL训练,为什么这么难?


先说说背景。


最近几个月,万亿参数级的推理模型开始扎堆出现——Kimi-K2、Ring-1T相继登场,在多个推理基准上已经追平甚至超越闭源模型。


但预训练只是起点。看看DeepSeek V3.2就知道了——RL训练的算力投入已经超过预训练的10%,性能曲线还没见顶。强化学习正在从“锦上添花”变成大模型进化的主战场,成为未来一年的兵家必争之地。


要让万亿参数模型真正适配Agent任务,RL不再是可选项:


  • RL能优化多步推理,而不是只做下一个token的预测
  • RL能整合来自工具、环境、用户的反馈信号
  • RL能塑造长程行为,这对Agent系统越来越重要


问题在于成本。


在万亿参数模型上跑全参数RL,对绝大多数团队来说根本不现实——就算你能拿到开源的模型权重,训练开销也能把你劝退。


Mind Lab给出的解法是:用LoRA做参数高效适配,配合专门为万亿参数MoE模型设计的混合并行引擎,把RL的计算量砍到只剩十分之一,同时性能不打折。


在Kimi K2上验证:64张H800,搞定万亿参数RL


Mind Lab直接拿Kimi K2开刀做了验证。


先看模型配置:


  • 基座模型:Kimi K2,万亿参数MoE推理模型
  • 激活参数/总参数:32.6B/1.04T
  • 激活专家/共享专家/总专家:8/1/384
  • 注意力头数:64


再看训练配置:


  • 8个节点×8张NVIDIA H800(共64张GPU)
  • RL算法:GRPO
  • 适配方式:在dense层和expert层都加LoRA,rank=128


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


关键结论有三条:


第一,成本大幅下降。

在Kimi K2上跑LoRA RL,GPU消耗只有传统全参数RL的10%左右。


第二,训练稳定收敛。

学习曲线显示,reward和任务成功率随着训练步数平稳提升,没有出现灾难性崩溃。


第三,通用能力保住了。

在hold-out基准上的评测表明,LoRA RL在提升特定任务表现的同时,保留了基座模型的通用能力。


MoE架构的三大拦路虎,怎么绕过去的?


你可能会问:LoRA不是早就有了吗?为什么在万亿参数MoE上跑就这么难?


问题出在MoE的架构特性上。现代万亿参数推理模型基本都是MoE Transformer,几百个专家、大量的all-to-all通信、dense和expert参数混杂在一起。


在这个设定下,简单的数据并行+LoRA方案会被三个问题卡死:


问题一:路由不均衡。

几百个专家的token路由极度不均匀,拖慢吞吐、放大RL更新的方差。


问题二:通信压力爆炸。

LoRA的适配器权重需要频繁跨设备收集,all-gather开销巨大,动不动就OOM。


问题三:并行布局太复杂。

rollout和training要在同一套硬件上紧耦合运行,简单的并行策略根本带不动。


Mind Lab的解法是设计了一套混合协同并行引擎,把tensor、pipeline、expert、sequence四种并行方式统一调度:


  • Tensor并行:处理同节点内的大矩阵乘法
  • Pipeline并行:把层分摊到不同节点
  • Expert并行:分片MoE专家,跨设备路由token
  • Sequence并行:处理长上下文场景


核心设计思想是:把并行当成可调度的资源,而不是固定的布局。


LoRA的配置也有讲究:


  • 在dense层和expert层都挂适配器,让RL信号能同时影响全局行为和专家行为
  • 用中等的LoRA rank(比如128),平衡表达能力和稳定性
  • 适配器完全分片,尽可能融合进现有kernel,避免额外开销


最终效果:LoRA的参数量和通信量大约是全参数RL的10%,但RL信号的传导路径并没有被阉割。


训练和推理用不同后端?会崩的


还有一个坑:RL训练里,rollout(生成轨迹)和training(更新参数)通常用不同的后端。


推理端可能跑在一个独立的、为serving优化的引擎上;训练端可能跑在一个重型的、需要频繁同步的分片后端上。


这就导致了分布不匹配——生成轨迹的策略和更新参数的策略不是同一个东西。


在万亿参数规模下,这个问题会被急剧放大:


  • logits的微小差异会导致采样轨迹的巨大偏差
  • 朴素的重要性采样比率可能爆炸,让训练彻底失稳


Mind Lab的解法是引入了截断重要性采样比率(truncated importance ratio),显式修正这种不匹配,同时不引入不可接受的方差。具体的数学公式涉及vllm和megatron两个后端的策略比值,通过截断操作把梯度权重控制在合理范围内。


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


整套方案已经集成到开源训练栈里:verl负责RL训练循环、rollout编排和reward聚合;Megatron-Bridge把verl接入Megatron风格的MoE后端,统一暴露四种并行方式。


代码已合并至NVIDIA Megatron-Bridge和Volcengine verl。


大模型LoRA RL vs 小模型全参数RL:谁更划算?


一个自然的问题是:为什么非要在超大模型上做LoRA RL,而不是直接用小模型跑全量RL呢?


Mind Lab做了一组对照实验,在Math数据集上训练三个策略:


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


三个模型只在Math上训练,然后同时在AIME 2025(域内)和GPQA(域外)上评测。


为了公平比较,团队控制了:


  • 总RL FLOPs(tokens × 参数 × 更新次数)
  • 环境交互次数
  • 奖励模型和RL流程


为了剔除大模型起点更高的优势,团队用了一个“headroom-normalized”的指标:相对于起点分数到满分之间的提升比例。


结论相当清晰:


32B模型+rank=8的LoRA,在相同RL计算预算下,headroom-normalized增益最大。


而且在域外任务GPQA上,32B+LoRA的迁移效果也是最好的——更强的先验带来了更好的泛化。


简单说:“大先验+小LoRA”比“小模型全参数RL”更划算。


背后的逻辑是:RL本质上是先验受限的(prior-limited)。如果基座模型本身生成不出高质量轨迹,RL就没有什么有用的信号可以放大。大模型已经编码了丰富的推理、工具使用和人类交互模式,RL可以在这些基础上精修,而不是从头造轮子。


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


Memory Diffusion:像人类一样“智慧地遗忘”


除了RL训练框架,Mind Lab还搞了一套全新的记忆机制——Memory Diffusion。


传统的Agent记忆方案有两类:


第一类是推理式记忆。每轮对话后,模型主动总结记忆片段。问题是反复总结计算开销大,而且关键细节容易在多轮迭代中丢失。


第二类是工具式记忆。把记忆存在外部数据库里,需要时检索回来插入上下文。问题是检索和重整合的过程容易丢失微妙的语境。


Mind Lab的思路完全不同:把轨迹本身当作记忆,通过反复的“遮蔽-分配-重填”操作来动态压缩。


三步走:


  1. Mask:从轨迹中选一块,确定性地遮掉
  2. Allocate:根据重要性给这块分配token预算——重要的多给,不重要的少给或直接扔掉
  3. Refill:在预算约束下重新生成这块内容,得到压缩但语义完整的表示


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


这个设计的灵感来自人类的遗忘机制。


人脑每时每刻都在高速丢弃无关信息——开车上班时,你会瞬间忘掉路过的广告牌,只记住目的地和路线。Memory Diffusion让AI也学会了这种“智慧地遗忘”:不追求记住一切,而是只保留真正有意义的经验。


关键是,这套方法的时间复杂度是O(1),不改变模型架构,严格遵守上下文预算。


在Locomo基准测试上,Memory Diffusion达到了93%的准确率,刷新了SOTA。


Andrej Karpathy说过一句话:

“Human thought naively feels a bit more like autoregression but it’s hard to say that there aren’t more diffusion-like components in some latent space of thought.”


Mind Lab正在把这个直觉变成工程现实——用扩散语言模型来做记忆更新本身,让“智慧遗忘”成为模型原生的能力。


Research-Product Co-Design:产品就是最好的RL环境Mind Lab还提出了一个核心理念:研产共设(Research-Product Co-Design)


为什么?因为真实产品能提供合成环境给不了的东西:


  • 偏好会随时间变化的真实用户
  • 嵌入真实约束的任务
  • 超越“对错”的长程反馈信号


产品本质上就是天然的RL环境。它持续生成接地的reward信号——编辑、使用模式、任务完成率、留存率,甚至用户的流失,都在告诉你系统到底有没有在帮忙。


Mind Lab在前端代码生成任务上做过一个实验:用产品级的人类反馈训练为什么非要在超大模型上做LoRA RL,而不是直接用小模型跑全量RL呢?,然后用它来优化策略。


结果显示:


  • 用真实人类反馈训练的GenRM,显著优于只经过预训练的模型
  • 用GenRM做RL,显著优于SFT


他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力


而且,静态环境下的reward model容易被“hack”——模型找到满足proxy但违背真实意图的病态策略后,没有自动纠错机制。


但在真实产品里,偏好数据是源源不断的。用户会交互、会反对、会覆盖系统的输出。这种持续的反馈流让reward model能不断更新,不容易过拟合到退化策略上,行为也更贴近真实的用户价值。


技术落地:Macaron AI速度飙升10倍


底层技术的突破不是停留在论文里的数字。


基于这次模型升级,Macaron AI的Mini-app生成速度从20分钟直接干到2分钟,提升10倍。同时上线了群聊协作和Daily Spark等新功能。


这就是“研产共设”的真实成果——更高效的模型训练,带来更快的推理速度,最终转化为用户可感知的体验升级。


One More Thing


在最新的访谈中,Ilya表示:我们正在结束一个以「算力规模化」(Scaling)为核心的时代,重新回到一个以「基础研究」(Research)为驱动的时代。


Ilya Sutskever说了一句让整个行业都在琢磨的话:

Pre-training as we know it will end. What comes next is superintelligence: agentic, reasons, understands and is self aware. 


预训练时代正在走向终结。那么,下一个时代是什么?


Mind Lab的答案是:经验智能(Experiential Intelligence)时代


这可能是全球第一个专门为“后预训练时代”而生的研究实验室。


他们的核心命题只有一个:


智能如何在真实世界中成长?


他们的核心主张是:预训练时代构建了“大脑”,但下一个时代属于“心智”。大脑记住了互联网上的海量知识,但在面对真实世界的复杂性时依然捉襟见肘。心智不只是存储的知识——它是能通过交互不断更新的世界模型、能从反馈中学习的内部机制、能动态感知任务的记忆系统。


简单说:大脑负责记忆,心智负责在世界中活着。


而这次万亿参数LoRA-RL的突破,正是他们为这个新时代打下的第一块基石——当RL训练的门槛被砍掉90%,更多团队就能进入这个赛道,整个行业的进化速度都会加快。


团队阵容相当硬核:


  • 10人核心研究团队,成员来自OpenAI、DeepMind、Seed
  • 学术背景横跨清华、MIT、Cornell
  • 创始人Andrew现在清华深圳研究院任研发中心 Director
  • 团队合作始于10年前,发表200+篇论文,被引30,000+次


Slogan也很有意思:


Real intelligence learns from real experience.真正的智能源于真实的体验。


他们研究的三个方向:


1. 基础设施:打通产品到Agent的闭环,更快更便宜的训练方案


2. 超越预训练:持续学习、记忆机制、推理与反思


3. 开放与可复现:可被复现的重要实验,寻找下一个scaling law


Mind Lab的差异化在于:他们不是产品公司,不会永远追着最新最强的模型跑;他们以研究智能为目标,不断提高模型学习的效率。也许当前模型不是最好的产品选择,但好算法的斜率更大,长期会成为那个更好的选择。


用他们自己的话说:


From training to becoming, from static intelligence to living intelligence.

从训练到成为,从静态智能到活的智能。


项目主页:


Mind Lab Blog: https://macaron.im/mindlab/


开源地址:


https://github.com/volcengine/verl/pull/4063

https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1380


文章来自于“量子位”,作者 “Mind Lab团队”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md