没想到扩散模型以一种另类的方式,火起来了!
来自德国的19岁的少年,Georg von Manstein声称自己「破解」了谷歌文本扩散模型的原理。
「19岁」「创业」「破解谷歌模型」……
乍看之下,简直像极了「少年天才挑战腐朽巨头」的逆袭剧本,数以万计的网友被他的推文吸引。
再加上扩散文本生成模型的动态演示,好像谷歌Gemini Diffusion的原理真被他破解了。
但很快就有网友发现,他用的动图,其实是来自国内的研究(Dream 7B),而后面放出来的几篇论文也并没有做任何解释……
不管这位小哥是不是在「搞抽象」,但谷歌这次提出的Gemini Diffusion却是一个实打实的干货。
更重要的是,Gemini Diffusion给扩散模型「再就业」树立了榜样。
Gemini Diffusion
每秒1479token
在刚刚过去的Google I/O大会上,Gemini 2.5 全家桶和Gemini Diffusion等一起推出。
遗憾的是Gemini Diffusion被Veo 3等消息所掩盖了。
但Gemini Diffusion是谷歌更大的野心:重塑语言生成,利用扩散技术,实现更快、更自由、更可控的文本创作体验。
Gemini Diffusion最大特点就是速度飞快:比谷歌目前最快的非扩散模型还要快,采样速度每秒1479个token,启动时间只要0.84秒。
响应速度之快,以至于谷歌在演示中需刻意放慢速度,才能让观众看清文本生成的内容。
除了生成速度快,在生成文本质量上,尤其是文本连贯性和错误纠正方面,Gemini Diffusion也优于传统的自回归模型。
Gemini Diffusion三大优点:快速响应、文本更连贯、迭代优化
在实时响应或大批量文本生成场景下,Gemini Diffusion具有明显优势。
在任务准确度上,二者各有千秋,取决于任务类型。
Gemini Diffusion,在生成效率和局部准确度方面表现优异,但在通用智能和知识覆盖方面尚未全面超越当前最强的自回归模型。
不止是快,代码和数学也很强
在外部基准上,Gemini Diffusion的性能可与更大的模型相媲美,同时速度也更快。
DeepMind将其与自家的Gemini 2.0 Flash-Lite模型进行了对比,在多个代码基准上几乎旗鼓相当。
总体来看,Gemini Diffusion在垂直领域(编程、数学)的准确性已经可与一流模型相比,甚至略有胜出,但在通用知识和推理方面仍有明显差距。
在外部基准测试中,Gemini Diffusion不仅快,在代码和数学推理任务上也表现优异:
尤其在长文本、逻辑强、结构复杂的任务中,其全局生成策略展现出对传统架构的替代潜力。
不过,在通用知识类任务上,其表现仍不如当前最强的自回归模型:
目前,Gemini Diffusion还是实验性演示版本,要注册候补名单才有机会体验。
实测:几秒完成聊天应用
著名的Web开发工程师Simon Willison,得到了Gemini Diffusion的试用机会。
他表示谷歌所言非虚:
哇,他们说它速度快可不是开玩笑的。
Simon Willison:英国程序员,Web框架Django的共同创作者
在下列视频中,他给Gemini Diffusion提示是「Build a simulated chat app」,它以每秒857个token的速度作出响应,并在几秒钟内生成了一个包含HTML和JavaScript的交互式页面。
在此之前,唯一一个达到商业级别的扩散模型是今年二月Inception Labs推出的Mercury模型。
Diffusion模型再就业
ChatGPT等推出了基于自回归模型的「动动嘴」画图、PS功能。
在AI生图领域,Diffusion模型节节败退。
在今年二月,Inception Labs推出了世界上首个扩散语言模型,在速度和成本上比当前一代LLM快多达10倍、便宜多达10倍。
在输出速度和人工分析编程指数上,可谓「遥遥领先」!
在接受采访时,斯坦福大学教授、Inception Labs联合创始人Stefano Ermon表示:
过去很多尝试将扩散模型用于文本生成都以失败告终。Mercury之所以成功,是因为我们在训练和推理算法方面做出了专有的创新。图像可以模糊地「看个大概」再逐步优化,但语言却必须严守语法规则,这使得迭代优化的过程更加复杂。
Stefano Ermon
而IBM研究员Benjamin Hoover指出,Mercury模型证明了扩散模型正在弥合差距,也指出了趋势的转变:
两三年之内,大多数人将会转向使用扩散模型。这已经是必然了。当我看到Inception Labs的模型时,我意识到,这种转变会比预想的更快发生。
Benjamin Hoover
而在「AI四巨头」中,谷歌是第一家推出扩散语言生成模型的巨头。
这对于扩散研究领域而言,无疑是个振奋人心的信息。
谷歌DeepMind主任科学家(Principal Scientist)Jack Rae表示,Gemini Diffusion的发布感觉像是一个里程碑。
Gemini Diffusion的成功探索向业界证明,非自回归的扩散架构在大语言模型上切实可行。
扩散模型威逼GPT,而下一代AI正在浮现。
扩散模型再战自回归
传统的自回归语言模型是一次生成一个词或一个token,从左到右逐字预测下一个token,按照顺序逐步生成文本(见下图左)。
由于这种生成方式是逐步进行的,因此速度较慢,也可能限制了生成结果的质量和连贯性。
与传统的自回归大语言模型不同,Gemini Diffusion采用了扩散模型的架构:它从随机噪声出发,逐步细化出完整的文本段落(见下图右)。
这种过程类似于图像扩散模型在图像生成中的应用——从杂乱噪声开始,通过多次迭代逐渐生成清晰有意义的输出。
在文本领域,这意味着Gemini Diffusion可以一次生成整个词块,并在生成过程中多轮调整纠错,逐步逼近最终结果。
它在初始阶段给出一段粗糙的文本草稿,然后通过迭代不断改进内容的准确性和一致性,直到得到高质量的输出。
这种架构上的根本差异带来了多方面影响:
首先,并行生成整个文本块使其速度大幅提升(无需逐词等待)。
其次,全局视角的生成方式有助于长文本的整体连贯性,因为模型能同时考虑文本各部分的关系,而非局限于局部上下文。
最后,迭代精炼允许模型在生成过程中自我检查并修正错误,使输出更一致可靠。
扩散大语言模型(Diffusion Large Language Model,dLLM)将为LLM带来一系列全新的能力,包括:
1. 更强的智能代理能力:dLLM的速度和效率极高,适用于需要大量规划和长文本生成的智能体应用。
2. 更高级的推理能力:dLLM内置的纠错机制修复幻觉内容,优化答案,同时保持在几秒钟内完成思考。
3. 更可控的生成过程:dLLM支持编辑生成内容,并且可以按任意顺序生成token。
4. 边缘设备上的应用:得益于其高效性,dLLM非常适合资源受限的场景,例如边缘设备。
扩散模型:不止生图
在Y Combinator新闻论坛,网友nvtop对Gemini Diffusion提供了一番解释:扩散语言模型与谷歌的BERT模型颇有渊源,反而与图像生成领域中的扩散模型没有太大关系。
这或许能理解为什么谷歌的这次转向。
论文链接:https://arxiv.org/abs/1810.04805
回忆一下BERT是如何训练的:
(1)输入一整句完整的句子(例如:「the cat sat on the mat」)
(2)将其中15%的token替换为[MASK](例如:「the cat [MASK] on [MASK] mat」)
(3)使用Transformer模型并行地预测这些被遮蔽的位置,仅需一步推理(inference)
扩散语言模型的做法则是在这个思路上更进一步。
BERT只能恢复约15%的被遮蔽token(可视为「噪声」),但完全可以训练模型来恢复30%、50%、90%,甚至100%被遮蔽的文本。
一旦训练完成,就可以实现从零开始生成文本:
这正是扩散语言模型的核心理念。
当然,在实际应用中还有很多优化策略。
如果需要生成很长的文本(例如超过200个token),可以将其切分为多个块(chunk),先并行生成第一个块,再逐块向后生成。
这种方法被称为Block Diffusion,是一种半自回归式生成方式。
论文链接:https://arxiv.org/abs/2503.09573
还可以选择性地将哪些token在某一轮中被视为「最终生成的」,以及这部分的比例:
总体来看,扩散语言模型虽然也是迭代式的,但所需步骤远少于自回归模型。而且用户可以自由选择迭代轮数,实现速度与质量之间的权衡。
极端情况下,甚至可以让扩散模型仅预测最左边一个被遮蔽的token,这样它就退化为一个传统的因果语言模型了。
文本生成范式转向
当响应延迟不再显著,人们可以更自然地将AI融入工作流中,实时协作或即时创意迭代将成为可能。
Gemini Diffusion的成功探索向业界证明,非自回归的扩散架构在大语言模型上切实可行。
可以预见未来会出现自回归+扩散融合的模型:利用扩散模型快速生成初稿,再用自回归模型微调润色,或者反过来通过自回归生成草稿、扩散模型高效优化。
这种多阶段、多模型协作的框架有望结合双方优势,提高生成质量和速度。
这些进展预示着扩散模型正崭露头角,可能打破过去多年自回归模型一统NLP天下的格局。
将高速扩散生成与深度推理相结合,可能是其下一步的研发重点之一。
参考资料:
https://fortune.com/2025/05/21/gemini-diffusion-google-io-sleeper-hit-blazing-speed-ai-model-wars/
https://blog.google/technology/google-deepmind/gemini-diffusion/
https://deepmind.google/models/gemini-diffusion/
https://simonwillison.net/2025/May/21/gemini-diffusion/
文章来自微信公众号 “ 新智元 ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner