NextStep-1：一次在图像生成上自回归范式的探索

8542点击 2025-08-18 17:36

自回归模型，是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界，从经典的离散序列生成，到结合强大扩散模型的混合范式，每一步都凝聚了社区的智慧。

这些工作，比如 MAR、Fluid、LatentLM 等，为我们带来了巨大的启发，也让我们看到了进一步优化的空间：比如，如何避免离散化带来的信息损失？如何让模型的架构更轻盈、更强大？

带着这些问题，阶跃星辰团队进行了新的尝试，并分享了阶段性成果：NextStep-1。

阶跃星辰的初衷是探索一条新的自回归图像生成的路径。NextStep-1 的核心思想是直接在连续的视觉空间中，以自回归方式进行生成。

为实现这一点，团队采用了一个轻量的「流匹配头」（Flow Matching Head）。它让模型能够：

学会在连续的视觉空间中直接生成单个图像 Patch，从根本上绕开了作为信息瓶颈的离散化步骤。

模型以自回归的方式，逐一生成所有 patches，最终完成一幅完整的图像。

这一设计带来了另一个显著优势：架构的简洁与纯粹。由于不再需要外部大型扩散模型的「辅助」，NextStep-1 的整体架构变得高度统一，实现了真正意义上的端到端训练。

阶跃星辰团队认为，NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下，构建一个简洁、高效的自回归模型是完全可行的。

这只是探索的第一步。阶跃星辰选择将 NextStep-1 开源，衷心期待它能引发更多有价值的讨论，并希望能与社区的研究者一起，继续推动生成技术的演进。

NextStep-1：一次在图像生成上自回归范式的探索

论文链接：https://arxiv.org/abs/2508.10711

GitHub 链接：https://github.com/stepfun-ai/NextStep-1

Hugging Face 模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

动因探究：背后的技术支撑

整体架构

NextStep-1 的架构如图 1 所示，其核心是一个强大的 Transformer 骨干网络（14B 参数），辅以一个轻量级的流匹配头（Flow Matching Head，157M 参数），用于直接生成连续的图像 Patch。

NextStep-1：一次在图像生成上自回归范式的探索

图 1 NextStep-1 的架构图

这一结构极其简洁、纯粹，它带来了两大解放：

解放了对离散化的依赖：不再需要图像 Tokenizer 进行离散化，直接在连续空间操作。

解放了对外部扩散模型的依赖：不再需要外接大型扩散模型作为「解码器」，实现了端到端的自回归训练。

核心发现

在探索 NextStep-1 的过程中，阶跃星辰团队获得了两个关键发现，它们不仅解释了模型为何高效，也为未来的研究提供了新的思路。

发现一：真正的「艺术家」是 Transformer

在阶跃星辰的框架中，Transformer 是「主创」，流匹配头更像是「画笔」。团队通过实验发现，流匹配头的尺寸大小（ 157M -> 528M），对最终图像质量影响很小。这有力地证明了，核心的生成建模与逻辑推理等「重活」，完全由 Transformer 承担。流匹配头则作为一个高效轻量的采样器，忠实地将 Transformer 的潜在预测「翻译」成图像 Patch。

发现二：Tokenizer 的「炼金术」—— 稳定与质量的关键

在连续视觉 Token 上的操作带来了独特的稳定性挑战，团队发现两个关键「炼金术」：

通道归一化 （Channel-Wise Normalization）是稳定性的「压舱石」：通过引入简单的通道归一化，极其有效地稳定了 Token 的统计特性，即使在高 CFG 指导强度下，也能确保生成清晰、无伪影的图像。

「更多噪声」竟能带来「更好质量」：一个反直觉的发现是，训练 Tokenizer 时加入更多噪声正则化，反而能显著提升最终生成图像的质量。阶跃星辰团队推断，这有助于塑造一个更鲁棒、分布更均匀的潜在空间，为自回归主模型提供更理想的工作平台。

眼见为实：高保真的视觉生成和编辑能力

NextStep-1 实现了高保真的文生图的生成，同时具有强大的图像编辑能力，覆盖多种编辑操作（如物体增删、背景修改、动作修改、风格迁移等），并能理解用户的日常语言指令，实现形式自由的图像编辑。

NextStep-1：一次在图像生成上自回归范式的探索

图 2 展示 NextStep-1 全面的图像生成和编辑能力

硬核实力：权威 Benchmark 下的表现

除了直观的视觉效果，阶跃星辰团队也在多个行业公认的 Benchmark 上对 NextStep-1 进行了严格的评估。结果表明，

综合性能在自回归模型中达到了新的 SOTA（State-of-the-Art）水平

在多个 benchmark 上已能与顶尖的扩散模型（Diffusion Models）直接竞争

NextStep-1：一次在图像生成上自回归范式的探索

表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能

NextStep-1：一次在图像生成上自回归范式的探索

表 2 NextStep-1 在 OneIG 上的性能

NextStep-1：一次在图像生成上自回归范式的探索

表 3 NextStep-1 在 WISE 上的性能

NextStep-1：一次在图像生成上自回归范式的探索

表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性与未来展望

NextStep-1 是阶跃星辰团队对构建简洁的高保真生成模型的一次真诚探索。它证明了，在不牺牲连续性的前提下，构建一个纯粹的端到端自回归模型是完全可行的。阶跃星辰相信，这条「简洁」的道路，为多模态生成领域提供了有价值的新视角。

阶跃星辰团队深知这只是探索的开始，前路依然广阔。作为一个对新范式的初步探索，NextStep-1 在展现出巨大潜力的同时，也让团队识别出了一些亟待解决的挑战。我们在此坦诚地列出这些观察，并视其为未来工作的重要方向。

生成过程中不稳定

NextStep-1 成功证明了自回归模型可以在高维连续潜在空间中运行，并达到媲美扩散模型的生成质量，但这条路径也带来了独特的稳定性挑战。观察到，当模型的潜在空间从低维（如 4 通道）扩展到更高维（如 16 通道）时，尽管后者能表达更丰富的细节，但也偶发性地出现了一些生成「翻车」的情况（如图 3 所示）。

NextStep-1：一次在图像生成上自回归范式的探索

图 3 失败的例子，展示图像生成过程中一些暴露出的问题

虽然其根本原因仍有待进一步探究，但团队推测可能存在以下因素：

局部噪声 / 块状伪影：可能源于生成后期出现的数值不稳定性。

全局噪声：可能反映了模型尚未完全收敛，需要更多的训练来优化。

网格状伪影：可能揭示了当前一维位置编码在精确捕捉二维空间关系上的局限性。

顺序解码带来的推理延迟

自回归模型的顺序解码特性，是其推理速度的主要瓶颈。研究团队对单个 Token 在 H100 GPU 上的延迟进行了理论分析（如表 5 所示），结果表明：

主要瓶颈在于大模型（LLM）骨干网络的顺序解码

流匹配头（Flow Matching Head）的多步采样过程也构成了不可忽视的开销

NextStep-1：一次在图像生成上自回归范式的探索

表 5 H100 上生成每个 token 的理论延迟速度 ( batch size 为 1 )

这一观察指明了两个明确的加速方向：

优化流匹配头：通过减小其参数量、应用模型蒸馏以实现少步生成，或采用更先进的少步采样器。

加速自回归主干：借鉴大语言模型领域的最新进展，如将多 Token 预测等技术，适配到图像 Token 的生成中。

高分辨率生成的挑战

在扩展到高分辨率图像生成方面，与技术生态已相当成熟的扩散模型相比，阶跃星辰团队的框架面临两大挑战：

收敛效率：自回归模型的严格顺序生成特性，在更高分辨率下需要更多的训练步数才能收敛。相比之下，扩散模型在每次迭代中并行地优化整张图像，能更直接地利用二维空间归纳偏置。

技术迁移难度：为高分辨率扩散模型开发的先进技术（如 timestep shift）难以直接迁移。其根本原因在于，流匹配头主要扮演一个轻量级采样器的角色，而核心的生成建模由 Transformer 骨干网络完成，因此单纯修改采样过程对最终输出的影响有限。

因此，基于 patch-wise 的图像自回归模型的高分辨率生成是一个重要探索方向。

监督微调（SFT）的独特挑战

团队观察到，当使用小规模、高质量的数据集进行微调时，训练动态会变得极不稳定。

扩散模型通常仅需数千个样本，就能稳定地适应目标数据分布，同时保持良好的泛化生成能力。相比之下，阶跃星辰的 SFT 过程：

依赖大规模数据：只有在百万样本规模的数据集上训练时，才能观察到显著且稳定的提升。

在小数据集上表现脆弱：当使用小规模数据集时，模型会陷入一种「岌岌可危」的平衡状态。它要么收效甚微，几乎没有变化；要么突然「崩溃」，完全过拟合到目标数据分布上，丧失了原有的泛化能力。

因此，如何在一个小规模数据集上，找到一个既能对齐目标风格、又能保留通用生成能力的「甜蜜点」（sweet spot）检查点，对阶跃星辰团队而言仍然是一个重大的挑战。

阶跃星辰团队相信，坦诚地面对这些挑战，是推动领域前进的第一步。

NextStep-1 的开源是团队为此付出的努力，也希望能成为社区进一步研究的基石。阶跃星辰团队期待与全球的研究者和开发者交流与合作，共同推动自回归生成技术向前发展。

文章来自于微信公众号“机器之心”。

关键词: AI , 模型训练 , NextStep-1 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner