永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

8820点击 2025-11-20 15:26

扩散模型「去噪」，是不是反而忘了真正去噪？何恺明携弟子出手，回归本源！

何恺明新作！

无需使用tokenizer，无需预训练，也无需任何额外的损失函数，何恺明等提出了一种「简单但强大」的方法。

他们证明，Transformer简单地在像素上使用大尺寸图像块（large-patch），就能成为一个强大的生成式模型。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

预印本链接：https://arxiv.org/abs/2511.13720

标题：Back to Basics: Let Denoising Generative Models Denoise

论文中给出的生成样本，可见图像质量相当细腻自然，色彩和结构表达力也很强：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

作为参照基准，他们在表7和表8中与前人研究成果进行了系统对比。

相较于其他基于像素的方法，新方案完全由通用型Transformer架构驱动，具有计算友好特性，成功避免了分辨率翻倍时计算量的二次增长（详见表8中的浮点运算量统计Gflops）。

表7评估了5万张生成样本的FID和IS指标。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

表8呈现了ImageNet在512×512分辨率下的基准测试结果。

JiT模型通过采用更激进的块大小，用较低的计算代价实现出色的生成效果。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

他们坦言，推动的是一种面向原始自然数据的「扩散+Transformer」建模理念，强调结构简洁、过程闭环、自洽独立。

JiT全面展示了纯Transformer架构在图像生成中的潜力，而这种理念在其他自然数据领域（如蛋白质、分子、气象等）同样大有可为，尤其在这些领域中设计tokenizer往往异常困难。

通过最小化特定领域的定制设计，它们希望，这种起源于视觉的通用建模范式，未来能在更广阔的跨学科场景中落地生根。

以前，扩散模型全搞错了？

论文一开始，就点名：如今的去噪扩散模型走了一条歧路——

其实，它们并不是真正意义上的「去噪」。

它们并不直接生成干净图像，而是预测噪声或带噪声的量。

何恺明新研究的核心观点在于：预测干净数据和预测带噪数据，本质上截然不同。

根据流形假设，自然图像数据应分布在低维流形上，而带噪数据则不具备这一特性。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

图1. 流形假设示意图

流形假设的核心思想是：自然图像，存在于高维像素空间中的一个低维流形之上。

在此概念框架下，干净图像x位于流形之上，而噪声ϵ或流速度v（例如 v = x - ϵ）本质上则游离于流形之外。

这揭示了去噪模型训练的两种根本不同路径：一是训练神经网络直接预测干净图像（即x-prediction），二是训练其预测噪声或含噪量（即ϵ/v-prediction）。

若要高维空间中预测噪声，模型就必须具备极高的容量——因为它需要完整保留噪声的所有信息。

而相较之下，如果目标是预测干净数据，即便神经网络容量有限，也能胜任，因为它只需保留低维信息，同时滤除噪声。

此外，扩散模型还有多个缺陷：

在像素空间或其他高维场景，现有扩散模型仍普遍面临「维度灾难」（curse of dimensionality），难以拓展。

扩散模型严重依赖预训练潜空间，难以自洽，缺乏独立建模能力。

为了解决这个问题，研究者们近年来愈发重视「在像素空间中进行扩散建模」。

何恺明等人认为，这些架构选择的背后，其实是在努力克服预测高维带噪量所需的建模难度。

他们这次回归扩散建模的基本原理：让神经网络直接预测干净图像。

最后，他们发现，只要采用最基础的Vision Transformer（ViT），基于大尺寸图像Patch（由原始像素构成）即可实现有效建模。

新方案完全自洽：

无需任何预训练或辅助损失函数，

无需潜空间tokenizer，

无需对抗损失，

无需感知损失（即不依赖预训练分类器），

也无需特征对齐机制（因此不依赖自监督预训练）。

他们称之为「纯图像Transformer」（Just image Transformers，简称JiT）。

事实上，「x预测」这一策略并不新鲜，甚至可以追溯到最初的DDPM论文，其代码实现中就包含了这一形式。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

论文链接：https://dl.acm.org/doi/abs/10.5555/3495724.3496298

标题：Denoising diffusion probabilistic models

不过在早期实验中，DDPM团队发现ϵ预测性能显著更好，从而逐渐成为标准做法。最后，这一做法无意中成了「历史的遗憾」。

在这项研究同时，也有研究在面向条件生成的世界模型中提倡采用x预测。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

预印本：https://arxiv.org/abs/2509.24527

标题：Training Agents Inside of Scalable World Models

新研究并不试图「重新发明」x预测这个基本概念，而是想强调：在高维数据与低维流形共存的语境下，直接预测干净数据这一问题长期被忽视，但却至关重要。

扩散模型，一网打尽

扩散模型的预测，可以在三个不同空间中进行：x空间（即干净图像）、ϵ空间（噪声）或v空间（流速）。

选择在哪个空间建模，不仅决定了损失函数的定义位置，也影响了神经网络输出的内容。

需要特别强调的是：损失空间与网络输出空间可以不同，这一选择会对最终性能产生显著影响。

由于三者（x、ϵ、v）之间彼此依赖，只需设定一个网络输出，同时结合另外两个约束条件，即可推导出其余两个变量。

这两个约束条件分别是：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

比如，神经网络直接输出x，联立方程组

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

由此可解出：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

这意味着：只要网络输出了x，其对应的ϵ和v都可以显式计算出来。表1的(a)列正是总结了这种情况下的转换关系。

同理，若网络直接输出ϵ或v，即可推出相应的三元关系。表1中的(b)和(c)列分别总结了ϵ预测与v预测下的变换。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

综上：x、ϵ、v三者中只需预测其一，另外两个均可由公式推导得出。

理论上，损失函数也可以定义在任意空间。

已有研究指出：在已知不同预测空间之间重参数化关系的前提下，不同损失形式之间是加权等价的。具体形式已在表1中系统列出。

九种组合与生成过程

将x、ϵ、v三种预测空间与三种损失空间进行两两组合，总共构成了九种合法的建模形式（见表1）。这些组合在数学上各自有效，但两两之间并不完全等价。

此外，如图2所示，作者通过一个玩具实验展示：当原始低维数据被嵌入更高维空间后，只有x预测仍能稳定生成合理输出，ϵ与v预测则迅速退化。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

无论训练时采用哪种预测/损失组合，推理阶段都可统一转换至v空间（即表1中第3行），再进行ODE采样。因此，这九种形式在生成意义上均合法有效，可根据任务需求灵活选择。

JIT：微微调一下ViT

ViT的核心思想是「图像Patch上Transformer」（ToP，Transformer on Patches）——新提出的架构设计也沿用这一理念。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

如图3所示，这种结构与DiT（Diffusion Transformer）非常相似，但核心差别在于：JiT直接在原始像素上建模，完全依赖x预测。

此外，模型在训练过程中也进行条件控制（如时间t和类别标签），采用了adaLN-Zero 方法来实现条件嵌入。

表1总结了9种「损失空间 + 预测空间」的组合形式。

为研究它们在实际表现上的差异，研究者分别使用ViT-Base（JiT-B）模型对每种组合进行训练。

根据ImageNet上的大量实验，作者归纳出以下几个关键结论，进一步验证了 「只用x预测+ViT」 这一策略在高维像素扩散建模中的可行性与优势：

✅ x预测至关重要

在高维设定（表2(a)，ImageNet 256×256，JiT-B/16，Patch维度为768）中，只有x预测在三种损失函数下都表现稳定，FID最低为 8.62；

ϵ预测和v预测在所有损失下均表现灾难性失败，FID高达300+；

原因在于：ϵ和v包含高维噪声信息，对模型容量要求极高，而x预测只需保留低维干净数据结构，更容易学习；这与前文玩具实验的发现一致（图2）。

⚖️ 损失加权不是万能解法

类似研究也尝试组合不同预测与损失空间，在低维数据集上几乎所有组合都能成功；

但在高维设定下，如表2(a)所示，损失空间的切换无法拯救ϵ/v预测。

x预测在三种损失空间下都有效，而ϵ/v预测在所有损失权重下均失败，说明关键不在加权，而在预测对象本身。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

表3展示了在不同噪声水平下（通过调整logit-normal分布的参数µ）各预测方式的FID变化：

对于x预测，适当提高噪声水平确实能改善性能（从14.44降至8.62）；

但对ϵ/v预测而言，再高的噪声也无济于事，灾难性失败无法避免，说明问题出在信息维度过高、无法有效传播。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

图4展示了对线性Patch嵌入层加入低秩瓶颈（bottleneck）结构后的结果：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

结果发现：适度瓶颈不仅不会崩溃，反而能提升性能——FID下降最多达到约1.3分。

这说明信息压缩有助于网络聚焦于低维有效特征，契合流形假设与人类感知机制。

虽然理论上增加模型容量可能有助于提升性能，但在高维下，这种方法成本高昂且并不必要。

表5和表6显示，哪怕Patch维度高达3072或12288，只要采用x预测，标准宽度模型依然能稳定工作。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

模型设计与输入维度可以部分解耦，仅需按比例调整噪声强度即可适配更大分辨率。

JiT:不止无需tokenizer

在前文分析基础上，作者最终选择使用「x预测 + v损失（v-loss）」作为训练方案，对应表1中的组合 (3)(a)。

优化目标函数如下：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

训练步骤（算法1）：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

采样步骤（算法2）：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

Transformer的关键优势在于其结构设计与任务解耦，因此可以从其他领域（如自然语言处理）借用先进模块来增强性能。

基础版（Baseline）：使用SwiGLU和RMSNorm

加入旋转位置编码RoPE与qk-norm（注意力归一化）

加入 in-context类别Token嵌入：不像ViT仅添加1个CLS Token，默认使用 32个类别Token

这些优化组件均来自语言模型研究，但在视觉扩散任务中同样显著提升性能：

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

在高分辨率像素生成上，表5表明JiT无惧维度灾难；表6则验证了JiT的可扩展性。

Just Image Transformers（JiT）证明了这样一个核心事实：只用原始像素+x预测+基础ViT结构，就足以实现顶尖性能。

相较其他方法，JiT具有以下独特优势：

结构极简： 无需预训练、辅助损失或感知模块；

通用高效： 利用标准Transformer即可训练；

稳定扩展： 分辨率、模型规模提升不影响性能；

资源友好： FLOPs 控制良好，无维度灾难；

可进化性强： 未来可接入更多语言模型模块进行微调提升。

最后，欣赏一下更多未筛选样例（un-curated examples）。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

更多细节，请参考原文。

何恺明弟子：黎天鸿

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

论文一作为黎天鸿。

目前，他是麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）的博士后研究员，导师是何恺明。

在此之前，他在麻省理工学院攻读博士和硕士。

他本科毕业于清华大学「姚班」，获计算机科学学士学位。

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

他的研究兴趣集中在表征学习、生成模型，以及这两者之间的协同作用。他致力于构建能够超越人类感知、理解和建模世界的智能视觉系统。

参考资料：

https://arxiv.org/abs/2511.13720

https://www.tianhongli.me/

文章来自于“新智元”，作者 “KingHZ”。

关键词: AI , 模型训练 , AI生图 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner