Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

8009点击 2025-11-20 15:26

继轻量级强化学习（RL）框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后，LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

Miles 从 slime 分叉（fork）而来，在继承其轻量级与高可定制性基因的基础上，针对新一代硬件（如 GB300）与大规模 MoE 进行了深度优化。它引入了 Infrastructure-level 的 True On-Policy（严格在线策略）、投机训练（Speculative Training）以及更极致的显存管理机制，旨在为追求高可靠性与大规模部署的团队提供流畅且可控的 RL 训练体验。

千里之行，始于足下。Miles 的发布标志着 LMSYS 团队在构建生产级 AI 基础设施道路上迈出的关键一步。

Z Highlights：

True On-Policy（严格在线策略）： 为了消除训练与推理之间的微小偏差，Miles 采用了基于基础设施的方法，结合 Flash Attention 3 和 DeepGEMM，实现了训练与推理的严格一致性。

引入 MTP Online Training 的投机采样： 针对 RL 场景，Miles 在训练过程中对 Draft Model 进行在线 SFT，解决了分布偏移问题，实现了 25%+ 的 Rollout 加速。

极致的显存优化： Miles 实施了包括 NCCL 显存余量控制、部分 Offloading 及 Host 峰值内存节省在内的一系列改进，大幅减少大规模 MoE 训练中的 OOM 风险。

从 slime 出发：轻量与模块化的传承

Miles 的起点源于 slime——一个在开源社区与 LMSYS 内部备受推崇的轻量级框架。slime 因其优雅的设计原则，已成为众多模型科学家探索算法的首选工具。Miles 完整继承了这些核心优势：

原生高性能： 对 SGLang 和 Megatron 的全栈优化提供原生支持，紧跟推理与训练框架的快速迭代。

清晰的模块化设计： 算法（Algorithm）、数据（Data）、采样（Rollout）与评估（Eval）四大组件完全解耦。研究人员仅需极少的代码修改即可插入新的 Agent 类型或奖励函数。

对模型科学家友好： 所有抽象层均保持高可读性。算法研究员无需触碰底层代码即可修改重要性采样（Importance Sampling）或 Loss 动态，且框架提供了独立的 Inference-only 和 Training-only 调试模式，便于快速诊断。

Miles 的诞生，正是基于 LMSYS 和 SGLang 社区的真实反馈，是将开放协作转化为工程实践的典范。

迈向生产级：Miles 的核心技术突破

在保留 slime 灵活性的同时，LMSYS 团队在 Miles 中注入了针对企业级应用和新一代硬件（GB300）的“强心剂”。以下是 Miles 近期实施的关键技术升级：

Infrastructure-level 的 True On-Policy

为了追求极致的算法正确性，Miles 除了支持现有的确定性（Deterministic）采样外，还进一步通过 kernel 层面的优化实现了True On-Policy，训练与推理之间的 mismatch 被精确地降至零。

具体实现上，团队利用了 Flash Attention 3、DeepGEMM以及来自 Thinking Machines Lab 的 Batch invariant kernels，并结合 torch compile 技术。此外，团队还对训练和推理过程中的数值运算细节进行了严格对齐，确保了结果的位级一致性（bit-wise consistence）。

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

大规模 MoE 显存优化

为了在不触发 OOM（显存溢出）的前提下最大限度地榨取 GPU 性能，Miles 进行了一系列显存管理升级：

引入了传播机制以规避良性 OOM 导致的错误；

实现了显存余量机制（Memory Margin）以修复 NCCL 导致的 OOM；

修复了 FSDP 中的额外显存占用问题；

支持基于 Move 的部分 Offloading 以及 Host 端峰值内存节省策略。

引入在线 SFT 的投机采样

在强化学习场景中，如果 Draft Model（草稿模型）保持冻结，它将无法跟随 Target Model（目标模型）的策略变化，导致接受长度（Accept Length）下降，从而削弱加速效果。

为此，Miles 创新性地在 RL 过程中对 Draft Model 进行在线 SFT（Online SFT）。

性能提升：相比于冻结 MTP（Medusa-Tree-Pruning）基线，该方法实现了 25% 以上的 Rollout 加速，尤其在训练后期效果显著。

功能完备：支持带 Sequence Packing 和 Context Parallel (CP) 的 MTP；处理了 Loss Mask 的边缘情况；实现了 LM Head/Embedding 的梯度隔离，以及 Megatron 与 SGLang 之间的权重同步。

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

其它工程改进

增强 FSDP 后端：提升了大规模分布式训练的稳定性。

独立部署 Rollout：允许 Rollout 子系统脱离框架独立部署，适应更灵活的集群调度。

调试工具集：新增了更多监控指标、Post-hoc 分析器及增强型 Profiler。

数学形式化验证：提供了包含 SFT/RL 脚本的 Lean 语言形式化数学示例。

未来路线图与社区愿景

LMSYS 团队表示，Miles 的发布仅仅是一个开始。为了进一步支持企业级 RL 训练，未来的开发路线图包括：

新硬件支持： 在 GB300 等下一代硬件上运行大规模 MoE RL 的示例。

多模态训练： 扩展对 Multi-modal 模型的支持。

Rollout 加速： 兼容 SGLang Spec v2 以获得更高性能；推进 EAGLE3 及 Multi-spec layer 等更先进的投机训练技术。

弹性训练： 实现针对大规模异步训练的计算资源均衡分配，以及对 GPU 故障的弹性容错（Elastic to GPU failures）。

Miles 的存在离不开 slime 作者群及广泛的 SGLang/RL 社区的贡献。LMSYS 团队诚邀研究人员、初创公司及企业团队试用 Miles，共同打造高效、可靠的强化学习生产环境。

原文链接：https://lmsys.org/blog/2025-11-19-miles/

文章来自于“Z Potentials”，作者 “LMSYS Org”。

关键词: AI新闻 , LMSYS , Miles , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md