从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述
5862点击    2026-03-10 14:29

在生成式 AI 的浪潮中,自回归(Autoregressive, AR)模型凭借其卓越的性能占据了统治地位。然而,其「从左到右」逐个预测 Token 的串行机制,天生限制了并行生成的可能性。


作为一种极具潜力的替代方案,扩散语言模型(Diffusion Language Models, dLLMs) 引入了全新的非自回归范式:通过迭代去噪来优化文本序列 。这种机制不仅支持双向上下文建模,更允许并行更新多个 Token,为更快的生成速度和更强的可控性打开了大门。


但在「美好愿景」与「实际落地」之间,横亘着一道巨大的鸿沟 —— 效率


相比于高度成熟的 AR 模型,dLLM 面临着训练成本高昂、推理步骤繁琐、KV Cache 难以复用等棘手问题 。为了厘清这一新兴领域的关键技术路径,自动化所、香港中文大学与香港大学等机构撰写了一篇最新的综述论文,该综述系统地梳理了高效 dLLM 的研究进展,从训练、推理、上下文及系统框架等维度,拆解 dLLM 是如何一步步跨越效率瓶颈的。


从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述


从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述


  • 论文标题:Efficient Diffusion Language Models: A Comprehensive Survey
  • 论文链接:https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey
  • 项目仓库:https://github.com/FelixMessi/Awesome-Efficient-dLLMs


一、训练效率:如何站在 AR 的肩膀上起飞?


dLLM 若要从头训练,不仅数据需求大,算力消耗也极其惊人。因此,如何「借力」现有的预训练模型成为关键。


论文将训练侧的提效策略主要归纳为 「AR 到 dLLM 的迁移」 与 「架构优化」


  • 从 AR 到扩散模型的无缝迁移:


与其从零开始,不如利用已有的 AR 模型权重。DiffuLLaMA 和 Dream 等工作探索了通过调整注意力掩码(Attention Mask)或引入特定的过渡微调阶段,将 AR 模型的能力「蒸馏」或「转换」为扩散模型 。更有趣的是 Block Diffusion(块扩散) 的思路,它保留了部分自回归的结构(块与块之间串行),但在块内部进行并行扩散,这种折中方案在保留 AR 预训练优势的同时,显著降低了适应成本 。


  • 架构层面的「加减法」:


为了减少计算量,研究人员开始对架构动刀。E2D2 采用了编码器 - 解码器(Encoder-Decoder)架构,让编码器处理清晰的输入,解码器专注于去噪,从而复用特征并降低训练成本 。此外,MoE(混合专家) 架构也被引入 dLLM(如 LLaDA-MoE),通过稀疏激活在保持模型容量的同时减少推理时的参数计算量 。


二、推理加速:并行解码与采样策略的博弈


推理速度是 dLLM 能否落地的核心痛点。由于扩散过程本质上是多步迭代,如果每一步都全量计算,延迟将无法接受。综述将推理加速主要分为 「并行解码」 和 「压缩技术」 两大类。


从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述


1. 并行解码(Parallel Decoding)


dLLM 的核心优势在于可以一次性更新多个 Token。但具体更新哪些?更新多少?


  • 启发式方法(Heuristic Methods):这类方法不需要重新训练模型,而是利用 「不确定性」 作为信号。例如 Fast-dLLM 会计算每个 Token 的置信度,只有置信度高的 Token 才会保留,低的则继续去噪 。还有基于 「属性感知」 的采样,利用生成的局部一致性或早期收敛现象来提前终止计算 。


  • 基于学习的方法(Learning-based Methods):这是一种更「主动」的策略。通过训练额外的轻量级网络或使用强化学习(RL),让模型自己学会规划「这一步该解开哪些 Token」。dParallel 和 LSD 等工作通过蒸馏技术,让学生模型用更少的步数模仿教师模型的采样轨迹 。


2. 压缩与量化


除了少走几步,把模型「变小」也是硬道理。虽然量化(Quantization)在 AR 模型中已很成熟,但 dLLM 对异常值和时间步(Timestep)高度敏感。QDLM  Quant-dLLM 等工作专门针对扩散过程中的激活分布特点,设计了细粒度的量化方案,甚至实现了 2-bit 的极低比特量化 。


三、KV Cache 管理:应对「动态」挑战


这是 dLLM 与 AR 模型在底层机制上最大的不同点,也是工程优化的深水区。


在 AR 模型中,历史 Token 是固定的,因此 KV Cache 可以一直复用。但在 dLLM 中,整个序列在每一步去噪中都在变化,双向注意力机制意味着所有 Token 互相依赖,导致标准的 KV Cache 失效。


从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述


综述总结了三种应对策略:


1. 架构范式调整:采用 Block Diffusion 或 DualCache 设计,将序列分为「固定的前缀」和「动态的后缀」,只对变化的部分进行重计算 。


2. 自适应刷新(Adaptive Refresh):利用 Token 的稳定性。如果某个 Token 的特征在两步之间变化很小(Similarity Threshold),就直接复用上一轮的 Cache,否则才更新。dKV-Cache 和 d²Cache 就是此类策略的代表 。


3. 稀疏化与驱逐(Sparsity & Eviction):既然存不下,就只存重要的。通过注意力显著性(Attention Saliency)判断哪些 Token 对当前生成最关键,动态驱逐不重要的 KV 对,从而在有限显存下支持更长的序列 。


四、投机解码:dLLM 的「自我博弈」与「协同作战」


投机解码(Speculative Decoding, SD)在 dLLM 中呈现出两种独特的形态:


  • dLLM-only 自我投机:模型自己预测未来的中间状态(Self-Speculation),或者利用 "Jump-Share" 机制,在迭代中跳过某些去噪步骤并共享计算结果 。
  • dLLM-AR 协同(Synergy):结合 AR 和 dLLM 的长处。一种思路是用小的 AR 模型辅助 dLLM 判断采样的联合概率;另一种则是用 dLLM 快速生成草稿(Draft),再由大参数的 AR 模型进行验证(Verify)。这种 "Diffusion-as-Drafter" 的模式正在成为提升 AR 模型整体吞吐量的新热点 。


五、总结与展望:迈向生产环境


除了上述算法层面的优化,论文还探讨了 上下文扩展(Context Scalability) 和 系统框架(System Framework)。目前,包括 SGLang 在内的主流推理引擎已开始初步支持 dLLM,但相比 vLLM 对 AR 模型的那种极致优化,dLLM 的生态系统仍处于「基建」阶段 。


未来值得关注的方向:


1. 统一的评测标准:目前的效率对比往往基于不同的假设,急需建立涵盖训练成本、显存占用、端到端延迟的统一 Benchmark。


2. 硬件感知的内核优化:目前的加速很多停留在算法层,缺乏针对 FlashAttention 那样底层的 CUDA Kernel 优化,这限制了理论加速比向实际墙钟时间(Wall-clock time)的转化 。


3. 多模态融合:dLLM 天然适合多模态任务(因为图像生成本身多为扩散模型),如何在多模态场景下实现统一的高效推理,将是下一个爆发点 。


这篇综述不仅是对现有技术的总结,更是一份「作战地图」。它清晰地表明,dLLM 正从纯粹的学术探索走向工业级应用。随着 KV Cache 管理、并行解码策略的日益成熟,我们有理由相信,在不久的将来,dLLM 将在需要高质量、高可控性生成的场景中,成为 AR 模型强有力的竞争者甚至互补者。


延伸阅读与资源


纸上得来终觉浅。为了方便大家查阅文中提到的所有算法实现及后续更新的论文,作者整理了配套的 GitHub 资源库。如果你关注扩散语言模型推理加速、模型压缩 或 高性能计算,建议将此链接加入书签:


  • https://github.com/FelixMessi/Awesome-Efficient-dLLMs


该仓库实时追踪 dLLM 领域的最新动态,欢迎 Star 关注或贡献你的代码!


文章来自于“机器之心”,作者 “机器之心”。

关键词: AI , 模型训练 , 扩散模型 , dLLMs
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner