19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

7862点击 2025-05-24 19:28

没想到扩散模型以一种另类的方式，火起来了！

来自德国的19岁的少年，Georg von Manstein声称自己「破解」了谷歌文本扩散模型的原理。

「19岁」「创业」「破解谷歌模型」……

乍看之下，简直像极了「少年天才挑战腐朽巨头」的逆袭剧本，数以万计的网友被他的推文吸引。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

再加上扩散文本生成模型的动态演示，好像谷歌Gemini Diffusion的原理真被他破解了。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

但很快就有网友发现，他用的动图，其实是来自国内的研究（Dream 7B），而后面放出来的几篇论文也并没有做任何解释……

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

不管这位小哥是不是在「搞抽象」，但谷歌这次提出的Gemini Diffusion却是一个实打实的干货。

更重要的是，Gemini Diffusion给扩散模型「再就业」树立了榜样。

Gemini Diffusion

每秒1479token

在刚刚过去的Google I/O大会上，Gemini 2.5 全家桶和Gemini Diffusion等一起推出。

遗憾的是Gemini Diffusion被Veo 3等消息所掩盖了。

但Gemini Diffusion是谷歌更大的野心：重塑语言生成，利用扩散技术，实现更快、更自由、更可控的文本创作体验。

Gemini Diffusion最大特点就是速度飞快：比谷歌目前最快的非扩散模型还要快，采样速度每秒1479个token，启动时间只要0.84秒。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

响应速度之快，以至于谷歌在演示中需刻意放慢速度，才能让观众看清文本生成的内容。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

除了生成速度快，在生成文本质量上，尤其是文本连贯性和错误纠正方面，Gemini Diffusion也优于传统的自回归模型。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

Gemini Diffusion三大优点：快速响应、文本更连贯、迭代优化

在实时响应或大批量文本生成场景下，Gemini Diffusion具有明显优势。

在任务准确度上，二者各有千秋，取决于任务类型。

Gemini Diffusion，在生成效率和局部准确度方面表现优异，但在通用智能和知识覆盖方面尚未全面超越当前最强的自回归模型。

不止是快，代码和数学也很强

在外部基准上，Gemini Diffusion的性能可与更大的模型相媲美，同时速度也更快。

DeepMind将其与自家的Gemini 2.0 Flash-Lite模型进行了对比，在多个代码基准上几乎旗鼓相当。

总体来看，Gemini Diffusion在垂直领域（编程、数学）的准确性已经可与一流模型相比，甚至略有胜出，但在通用知识和推理方面仍有明显差距。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

在外部基准测试中，Gemini Diffusion不仅快，在代码和数学推理任务上也表现优异：

HumanEval代码测试：一次性通过率达89.6%，与Gemini Flash-Lite持平；
AIME 2025数学竞赛测试：准确率23.3%，略高于Flash-Lite的20.0%；
LiveCodeBench实时编程：得分30.9%，领先Flash-Lite的28.5%。

尤其在长文本、逻辑强、结构复杂的任务中，其全局生成策略展现出对传统架构的替代潜力。

不过，在通用知识类任务上，其表现仍不如当前最强的自回归模型：

MMLU多任务问答：Gemini Diffusion得分为69.1%，仍低于GPT-4的86.4%。
科学推理GPQA Diamond：准确率40.4%，显著落后于Flash-Lite的56.5%

目前，Gemini Diffusion还是实验性演示版本，要注册候补名单才有机会体验。

实测：几秒完成聊天应用

著名的Web开发工程师Simon Willison，得到了Gemini Diffusion的试用机会。

他表示谷歌所言非虚：

哇，他们说它速度快可不是开玩笑的。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

Simon Willison：英国程序员，Web框架Django的共同创作者

在下列视频中，他给Gemini Diffusion提示是「Build a simulated chat app」，它以每秒857个token的速度作出响应，并在几秒钟内生成了一个包含HTML和JavaScript的交互式页面。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

在此之前，唯一一个达到商业级别的扩散模型是今年二月Inception Labs推出的Mercury模型。

Diffusion模型再就业

ChatGPT等推出了基于自回归模型的「动动嘴」画图、PS功能。

在AI生图领域，Diffusion模型节节败退。

在今年二月，Inception Labs推出了世界上首个扩散语言模型，在速度和成本上比当前一代LLM快多达10倍、便宜多达10倍。

在输出速度和人工分析编程指数上，可谓「遥遥领先」！

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

在接受采访时，斯坦福大学教授、Inception Labs联合创始人Stefano Ermon表示：

过去很多尝试将扩散模型用于文本生成都以失败告终。Mercury之所以成功，是因为我们在训练和推理算法方面做出了专有的创新。图像可以模糊地「看个大概」再逐步优化，但语言却必须严守语法规则，这使得迭代优化的过程更加复杂。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

Stefano Ermon

而IBM研究员Benjamin Hoover指出，Mercury模型证明了扩散模型正在弥合差距，也指出了趋势的转变：

两三年之内，大多数人将会转向使用扩散模型。这已经是必然了。当我看到Inception Labs的模型时，我意识到，这种转变会比预想的更快发生。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

Benjamin Hoover

而在「AI四巨头」中，谷歌是第一家推出扩散语言生成模型的巨头。

这对于扩散研究领域而言，无疑是个振奋人心的信息。

谷歌DeepMind主任科学家（Principal Scientist）Jack Rae表示，Gemini Diffusion的发布感觉像是一个里程碑。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

Gemini Diffusion的成功探索向业界证明，非自回归的扩散架构在大语言模型上切实可行。

扩散模型威逼GPT，而下一代AI正在浮现。

扩散模型再战自回归

传统的自回归语言模型是一次生成一个词或一个token，从左到右逐字预测下一个token，按照顺序逐步生成文本（见下图左）。

由于这种生成方式是逐步进行的，因此速度较慢，也可能限制了生成结果的质量和连贯性。

与传统的自回归大语言模型不同，Gemini Diffusion采用了扩散模型的架构：它从随机噪声出发，逐步细化出完整的文本段落（见下图右）。

这种过程类似于图像扩散模型在图像生成中的应用——从杂乱噪声开始，通过多次迭代逐渐生成清晰有意义的输出。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

在文本领域，这意味着Gemini Diffusion可以一次生成整个词块，并在生成过程中多轮调整纠错，逐步逼近最终结果。

它在初始阶段给出一段粗糙的文本草稿，然后通过迭代不断改进内容的准确性和一致性，直到得到高质量的输出。

这种架构上的根本差异带来了多方面影响：

首先，并行生成整个文本块使其速度大幅提升（无需逐词等待）。

其次，全局视角的生成方式有助于长文本的整体连贯性，因为模型能同时考虑文本各部分的关系，而非局限于局部上下文。

最后，迭代精炼允许模型在生成过程中自我检查并修正错误，使输出更一致可靠。

扩散大语言模型（Diffusion Large Language Model，dLLM）将为LLM带来一系列全新的能力，包括：

1. 更强的智能代理能力：dLLM的速度和效率极高，适用于需要大量规划和长文本生成的智能体应用。

2. 更高级的推理能力：dLLM内置的纠错机制修复幻觉内容，优化答案，同时保持在几秒钟内完成思考。

3. 更可控的生成过程：dLLM支持编辑生成内容，并且可以按任意顺序生成token。

4. 边缘设备上的应用：得益于其高效性，dLLM非常适合资源受限的场景，例如边缘设备。

扩散模型：不止生图

在Y Combinator新闻论坛，网友nvtop对Gemini Diffusion提供了一番解释：扩散语言模型与谷歌的BERT模型颇有渊源，反而与图像生成领域中的扩散模型没有太大关系。

这或许能理解为什么谷歌的这次转向。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

论文链接：https://arxiv.org/abs/1810.04805

回忆一下BERT是如何训练的：

（1）输入一整句完整的句子（例如：「the cat sat on the mat」）

（2）将其中15%的token替换为[MASK]（例如：「the cat [MASK] on [MASK] mat」）

（3）使用Transformer模型并行地预测这些被遮蔽的位置，仅需一步推理（inference）

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

扩散语言模型的做法则是在这个思路上更进一步。

BERT只能恢复约15%的被遮蔽token（可视为「噪声」），但完全可以训练模型来恢复30%、50%、90%，甚至100%被遮蔽的文本。

一旦训练完成，就可以实现从零开始生成文本：

一开始输入全部为[MASK]的序列，模型输出的内容可能是胡言乱语。然后随机选出其中10%的token，把它们标记为「已生成」。
在下一次推理中，将剩下90%的位置继续设为[MASK]，保留前面10%。继续这样迭代，
在每一轮中都「定住」一部分新的token。大约迭代10次之后，就能生成完整的文本序列。

这正是扩散语言模型的核心理念。

当然，在实际应用中还有很多优化策略。

如果需要生成很长的文本（例如超过200个token），可以将其切分为多个块（chunk），先并行生成第一个块，再逐块向后生成。

这种方法被称为Block Diffusion，是一种半自回归式生成方式。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

论文链接：https://arxiv.org/abs/2503.09573

还可以选择性地将哪些token在某一轮中被视为「最终生成的」，以及这部分的比例：

在早期阶段，模型还处于噪声状态，可以一次保留更多token。
在后期接近完成时，则可以多迭代几轮，
每轮只保留少量新token，以提升质量。

总体来看，扩散语言模型虽然也是迭代式的，但所需步骤远少于自回归模型。而且用户可以自由选择迭代轮数，实现速度与质量之间的权衡。

极端情况下，甚至可以让扩散模型仅预测最左边一个被遮蔽的token，这样它就退化为一个传统的因果语言模型了。

文本生成范式转向

当响应延迟不再显著，人们可以更自然地将AI融入工作流中，实时协作或即时创意迭代将成为可能。

Gemini Diffusion的成功探索向业界证明，非自回归的扩散架构在大语言模型上切实可行。

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

可以预见未来会出现自回归+扩散融合的模型：利用扩散模型快速生成初稿，再用自回归模型微调润色，或者反过来通过自回归生成草稿、扩散模型高效优化。

这种多阶段、多模型协作的框架有望结合双方优势，提高生成质量和速度。

这些进展预示着扩散模型正崭露头角，可能打破过去多年自回归模型一统NLP天下的格局。

将高速扩散生成与深度推理相结合，可能是其下一步的研发重点之一。

参考资料：

https://fortune.com/2025/05/21/gemini-diffusion-google-io-sleeper-hit-blazing-speed-ai-model-wars/

https://blog.google/technology/google-deepmind/gemini-diffusion/

https://deepmind.google/models/gemini-diffusion/

https://simonwillison.net/2025/May/21/gemini-diffusion/

文章来自微信公众号 “ 新智元 ”

19岁少年「破解」谷歌新AI？每秒1479 token，扩散再战GPT!

关键词: Gemini Diffusion , AI , 人工智能 , 谷歌AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner