按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。
和自回归(AR)语言模型不同,MDLM 的训练目标是随机遮蔽序列中的若干位置,模型学习去 in-fill(填充)这些被遮蔽位置。这样训练出来的模型存在诸多优势,如支持任意顺序解码、多 token 并行解码等。此前有研究表明,MDLM 的这些优势使其在数独等逻辑谜题上的表现得到显著提升。
然而,最近的一篇论文有了一些意外发现:在数学和编码任务中,任意顺序算法的性能往往不如从左到右采样,或者表现与之相似,而标准的多 token 解码会显著降低性能。即使仅在两个 token 上进行并行解码,模型在主流基准任务上的性能也会显著下降。

使用 MDLM 进行从左到右的采样是一种适用于推理和编码的高效采样算法。如果没有 [Arriola et al., 2025] 提出的块大小(block sizes)来强制形成半自回归(AR)的从左到右结构,任意顺序会显著影响性能。

MDLM 能够并行生成多个固定 token,但这会降低准确性。作者使用块任意顺序熵解码,并行解码 1 个、2 个、4 个 token。可以看到,除数独外,在所有任务中,即使并行解码两个 token 也会导致性能显著下降。
这一结果引发了一个问题:既然 MDLM 在训练时投入了大量额外计算资源以建模所有被掩码位置的联合分布,那么这些额外的计算是否真的物有所值?

为了回答这个问题,研究者探究了如何将这些计算资源重新利用为有意义的推理与采样能力。他们证明,MDLM 提供了对所有掩码位置的条件分布的访问权限,并具备填充(in-filling)能力,这一特性解锁了传统 NTP 模型无法轻易实现的新型采样与后训练(post-training)机制。
首先,研究者展示了 MDLM 的填充能力如何开启新的模型提示范式。在本文中,他们提出了「提示即填充」(prompting-as-infilling) 的方法。与 NTP 模型仅能在序列起始位置添加提示不同,这种方法允许在多个位置添加由用户指定的上下文。
更具体地,他们提出了「推理即填充」(reasoning-as-infilling) 的框架。在该框架中,研究者预先构造了一个显式的「推理模板」(reasoning template),其中包含特定的推理位置与答案位置(参见图 1)。这一模板结构使得模型能够基于给定的推理预算和格式,对推理轨迹进行采样。

研究者发现,基于填充的模板带来了多项优势。通过显式区分 token 答案的位置,模型可以利用 MDLM 提供的被掩码位置的条件分布,在推理过程中量化答案的不确定性。由此,模型一旦在答案上收敛,就能够提前退出(early exit),从而降低推理计算成本。例如,在 GSM8k 数据集上,这种方法减少了 24% 的函数调用,且模型准确率没有任何下降。
「推理即填充」不仅带来新的推理方式,也对模型行为分析与性能提升具有重要意义。给定一个答案,研究者就可以从 MDLM 的后验分布中采样,该后验分布是以答案为条件的推理轨迹,即 p_θ (r | c, a)。
这种在 MDLM 框架下对后验分布进行便捷采样的能力,使得研究者能够生成高质量的「事后推理(post-hoc reasoning)轨迹」,并将其用于模型微调,从而提升整体性能。
随后,研究者重新审视了多 token 解码问题。他们指出,在同一步骤中同时解码多个位置,会导致生成样本偏离模型学习到的真实分布,因为联合分布与分解分布通常不一致:

为了解决这一偏差,研究者提出利用被掩码位置的熵值来指导解码过程,从而控制多 token 解码相对于单 token 解码的偏离程度。
基于这一思路,他们提出了一种自适应多 token 解码器 —— 多 token 熵解码(MED)。该方法仅在附加位置的条件熵低于设定阈值时,才进行并行解码。
实验结果表明,MED 方法能够在保持性能几乎不变(或仅有轻微下降)的情况下,实现 2–3 倍的函数调用减少,显著降低推理计算量。


通常情况下,MDLM 的提示方式与 NTP 模型类似,而被掩码位置的分布仅被用于在少量固定的位置进行采样,其余位置的分布会被直接丢弃。
在本研究中,研究者表明,MDLM 所具备的填充能力,以及其对所有被掩码位置的分布的访问能力,开启了许多新的采样与后训练潜能。
假设:研究者假设,MDLM 模型所学习到的掩码条件分布能够定义出一致的联合分布。
一般而言,NTP 模型在推理阶段的控制方式是:在序列的开头插入一个提示前缀(prompt prefix)。然而,对于 MDLM,研究者提出可以在输出序列中预先填充用户指定的 token。
在推理任务中,当模型在生成最终答案之前会输出一段推理轨迹时,研究者可以在输出序列中预填一个区分推理 token 与答案 token 的推理模板:

其中,答案分隔符(answer delimiter) 由用户自行指定,例如在数学任务中可以是「The answer is: 」,而在代码生成任务中可以是函数定义等。在这种提示方式的重新表述中,上下文 c 现在包含了提示和答案分隔符,如图 1 所示。通过区分推理位置与答案位置,「推理即填充」在采样与后训练方面都提供了多项优势。
1、提早停止
通过显式指定答案区块的位置,「推理即填充」使得研究者能够在生成推理轨迹的过程中测量答案的不确定性。衡量不确定性的一种方法是:给定未被掩码的推理位置时,计算答案区块的熵。

因此联合熵的计算需要额外的估计。研究者指出,这些边缘分布可以用于对联合熵进行上界估计:

基于该结果,研究者提出了一种基于答案不确定性上界 H_UB 的早退出机制。具体而言,给定部分推理轨迹 r_UNMASKED,如果答案熵上界低于用户设定的阈值 γ,即 H_UB< γ,则跳过剩余推理 token 的填充步骤,从而提前终止推理过程。
2、使用「推理即填充」对 MDLM 进行后训练
通常,对模型进行推理类后训练需要大量昂贵的人类示范数据。有人证明基于模型自身生成的推理轨迹进行后训练也可以提升性能。这类方法的核心思想是:从后验分布 p_θ (r | c, a) 中采样推理轨迹,再用这些样本进行训练,从而提升模型生成正确答案的概率。
然而,对于标准的 NTP 模型,从后验分布采样是不可行的。因此,部分研究者采用了近似采样方法,这些方法要么需要复杂的提示设计,要么需要额外训练一个模型来根据答案提示生成推理轨迹。
相比之下,借助 MDLM 的「推理即填充」方法,只需在输出序列中预先填充答案块位置,即可实现从后验分布中采样,而无需复杂提示设计或额外训练模型。这些后验采样得到的推理轨迹可以用于多种后训练方法。
3、在后训练中对部分推理轨迹进行评分
现有的微调算法(如 GRPO 和 RLOO )通常不使用后验样本,而是仅在生成完成后对结果进行打分。这些算法可以从中间奖励中获益。近期研究表明,在生成过程中引入中间奖励有助于模型采样出更有利于微调的样本。这些中间奖励一般由外部的预训练过程奖励模型提供。而通过「推理即填充」,在已知答案的情况下,MDLM 可以在中间步骤对任意部分推理轨迹进行评分。给定部分推理轨迹 r_UNMASKED 和一个答案 a^*,可以计算其得分:

直观上,当对于某个推理轨迹 r_UNMASKED,其生成的答案各个 token 的似然值更高时,该推理轨迹往往更有可能产生正确答案。

从表 1 中可以观察到:即便同时并行解码两个 token,也会损害任务性能。


在本研究中,作者提出了多 Token 熵解码方法,它利用被遮蔽位置 x^j 的熵值,来决定是否并行解码多个位置。给定未遮蔽文本 x_UNMASKED、一个解码阈值 λ,以及最大并行解码数 k_max,作者提出了两种选择解码位置集 A 的策略:

MED 和 AR-MED 都允许通过 λk_max 对式(5)中的 kullback - Leibler 散度进行上界限制,从而控制多 token 解码所产生的误差。
如图 3 所示,对于 LLaDA 和 Dream,仅并行解码 k=2 个 token 会导致它们在 GSM8k 上的准确率大幅下降(超过 40%)。作者发现,解码 k=2 还会导致 KL 散度显著增加。使用 λ=0.2 的 MED 方法,能为 LLaDA 和 Dream 带来显著的速度提升,且不会损失准确率。在 HUMANEVAL 上,MED 方法在实现 2.2 倍速度提升的同时,准确率保持不变;而在 GSM8k 上,可以观察到其实现了 1.5 倍的速度提升,且性能没有损失。

此外,在表 6 中,作者还测量了单 token 解码方案与多 token 解码方案的似然值之间的 KL 散度。

在表 2 中,可以观察到:对于 Dream 和 LLaDA 两种模型而言,提前退出都能减少总的 NFE。随着提前退出阈值 γ 的提高,模型能够在牺牲一定任务精度的情况下换取更快的推理速度。当提前退出与 MED 或 AR-MED 结合使用时,可获得进一步的计算节省。
值得注意的是,提前退出带来的收益在 LLaDA 模型上比 Dream 模型更显著。Dream 模型要实现相似的加速效果,通常需要设定更高的退出阈值。这一差异可能源于 Dream 模型的结构与来源 —— 它是由 NTP 模型改编而来。

通过表 4 可以观察到,在由基础模型生成的后验数据上对模型进行微调,显著提升了性能(提升 14.9%)。在 GSM8k 人工标注的推理轨迹上进行微调能产生相似的结果。这些结果证明,最大化后验推理轨迹上的对数似然可提高推理任务的准确率。

之前有研究发现,中间过程奖励能提升模型微调效果,但通常需要额外训练外部模型。在图 4 中,作者比较了在给定中间奖励的情况下,用于估计部分推理轨迹最终正确性的各种策略。

使用 LLaDA-8B Instruct 模型,作者在 GSM8k 测试集上采用贪心采样策略,从左到右、逐 token 生成答案。随后,他们计算了中间奖励与最终输出正确性之间的 Pearson 相关系数。
在推理过程中,利用答案的对数概率定义的中间推理过程,与最终答案正确性在中间步骤上的相关性,比一个拥有 70 亿参数的预训练过程奖励模型更强。
值得注意的是,作者还发现,测量答案块的对数概率有助于过滤通过后验采样生成的低质量推理链。对于一个未预填答案的后验推理链,其 MDLM 平均答案概率能够预测 GPT-4o 的推理链正确性得分。
这些结果表明,MDLM 预训练带来了新的后训练能力:
文章来自于“机器之心”,作者 “机器之心编辑部”。
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0