统治AI十年的Transformer,要被亲爹亲手砸碎?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
统治AI十年的Transformer,要被亲爹亲手砸碎?
5244点击    2026-05-27 16:30

80分钟的拳击式辩论!Transformer联合发明人亲自下场为自己的作品辩护,对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构,地基是不是已经松了?


Transformer凭什么统治AI这么久?


长上下文、记忆、推理这些短板,新架构真能突破吗?


所谓「后Transformer」,到底是更强的记忆机制、更高效的序列建模,还是从训练到系统都得换一套?


5月5日,旧金山,Pathway搞了场拳击擂台式的辩论赛。


这不是比喻,是真擂台。


统治AI十年的Transformer,要被亲爹亲手砸碎?


一边是Transformer的共同发明人Łukasz Kaiser,另一边是主张「后Transformer时代」的新架构派。


统治AI十年的Transformer,要被亲爹亲手砸碎?


注意一个细节:注意力机制的两位联合发明人,「Transformer八子」之一Llion  Jones,坐在了Kaiser的对立面。。


话题就一个:下一代AI架构到底长什么样。


现场坐满研究者、创业者和投资人。输赢不靠投票,靠「clapometer」——拍手计分器,谁掌声响谁赢。


这是一场刀刀见红、指名道姓的硬碰硬。


当裁判宣布比赛开始,统治了全球AI架构近十年的神话,第一次被它的缔造者亲自拉上了被告席进行自卫辩护。


这场思想界的重量级对决,从Transformer的五大死穴开始。


苦Transformer久矣

五大死穴


Łukasz Kaiser的身份让这场辩论的分量直接拉满。


他是Transformer的联合发明人。


2017年那篇改变整个AI格局的论文「Attention Is All You Need」,他是作者之一。之后他参与了ChatGPT、GPT系列和o1的实际工程开发。


他是当事人。他今天坐在这里,是为自己的作品做辩护。


对面的三位挑战者,来头同样不小。


Llion Jones,Transformer的另一位联合发明人,Sakana AI联合创始人。


Adrian Kosowski,Pathway首席科学官,BDH架构的发明人。


Matthias Lechner,Liquid AI首席技术官,MIT液态神经网络的共同发明人。


统治AI十年的Transformer,要被亲爹亲手砸碎?


这本身就是技术史上极其罕见的画面。创造同一个东西的人,对它的未来产生了根本性分歧。


Kaiser开场用了一个类比。


他说Transformer的注意力机制,就像图书管理员的卡片索引系统


你走进图书馆,说出你要找的内容(query),管理员翻开卡片目录(key),找到对应的书架位置,把书取出来交给你(value)。


统治AI十年的Transformer,要被亲爹亲手砸碎?


简洁。高效。全局检索。


但挑战者们要问的是:如果这个图书馆有一亿本书呢?每次查询都要翻遍所有卡片,这个系统还能撑住吗?


这就是O(n²),悬在Transformer头上的达摩克利斯之剑。


三位挑战者没有笼统地说「Transformer不行了」。他们拆出了五个具体的、当前Transformer架构无法在设计层面解决的开放难题。


每一个都直指要害。


统治AI十年的Transformer,要被亲爹亲手砸碎?


挑战者们最尖锐的隐喻,直指Transformer的记忆与持续学习缺陷:「土拨鼠之日」


在电影《土拨鼠之日》中,主角每天醒来,世界都会重置,昨天的记忆荡然无存。


统治AI十年的Transformer,要被亲爹亲手砸碎?


目前,Transformer也是如此。


每一次推理(Forward Pass),它的权重(Weights)都是完全冻结的。


哪怕你今天跟它聊了十个小时,它学到了绝妙的新知识,在下一次会话启动时,它依然是一个失忆的白痴。


现在工业界为了解决这个问题,拼命往里塞RAG(检索增强生成)、长上下文(KV Cache)。


但这根本不是架构级的解法,而是用昂贵的算力在伤口上贴创可贴。


五大死穴,每一个单拎出来都不是小事。合在一起,构成了一张完整的起诉书。


但起诉书不等于判决书。


Kaiser的底牌

你行你上,拿曲线说话


面对五大攻击,Kaiser没有一一辩驳。


他没说O(n²)不是问题,没说灾难性遗忘不存在,没说Transformer完美无缺。


他抛出了一句话,成了整场辩论的核心:


除非Post-Transformer证明更好的scaling曲线,否则Transformer仍然是主流。


统治AI十年的Transformer,要被亲爹亲手砸碎?


这句话的杀伤力在于,它把举证责任推回了挑战者。


什么是scaling曲线?


简单说,就是「投入更多算力和数据,AI能力提升多少」。


统治AI十年的Transformer,要被亲爹亲手砸碎?


Transformer统治近十年,最核心的原因不是它没缺陷,而是它的scaling曲线至今没被任何架构超越。


这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。


Kaiser的逻辑极其清晰:


你说Transformer有五个问题?我同意。


但有问题的东西和应该被替换的东西之间,有一道鸿沟。跨过它,你需要的不是五篇论文,是一条更好的scaling曲线。


然后,他展开了更具体的辩护,而且带着工程现场的铁锈味。


并行性是硬道理。


上周,在最新的Nvidia硬件上,Kaiser重新实现了Transformer和几个老式RNN,并做了对比。


非常小的GRU,比一个大得多的Transformer还要慢50倍。


统治AI十年的Transformer,要被亲爹亲手砸碎?


RNN确实优美,但它的顺序执行特性在当前硬件上就是一场灾难。


如果真存在一种更好的架构,你需要用50倍的时间去证明它——而大多数实验室没有这个耐心。


十年的工程积累。


不只是GPU优化,编译器、训练框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化工具——整个AI工程栈都围绕Transformer搭建。


统治AI十年的Transformer,要被亲爹亲手砸碎?


换架构意味着这一切都要重来。


隐式的「持续学习」,早已发生。


Kaiser指出,Transformer在大规模预训练后,前向传播中表现出的上下文学习(In-Context Learning),在数学上其实完美模拟了反向传播中的梯度下降。


统治AI十年的Transformer,要被亲爹亲手砸碎?


换句话说,你们说它不会学,它其实在以另一种方式偷偷地学。


他的辩护不是「Transformer永远是最优解」,而是「Transformer现在是最优解,除非你证明不是」。


然后他甩出一句让对面哑口无言的话:


也许找到下一个架构的,恰恰会是Transformer本身——而不是你们。


全场笑声。


但大家都听出来了:这是认真的。


AI:无人可挡的光明未来


Kaiser的结束陈词,没有说「Transformer永远是最优解」。他说的是:「目前,Transformer仍然赢。」


「目前」这个词,是他留给挑战者的唯一缝隙。


更微妙的是,他亲手交出了一件本属于自己阵营的武器。


后Transformer阵营此前最大的短板,是「缺乏大算力的工程和硬件验证」——新架构跑得慢、没人愿意为它改芯片。但Kaiser自己承认,这道壁垒正在被瓦解:


现在,AI Agent已经学会了写极高难度的CUDA和Triton核函数。


统治AI十年的Transformer,要被亲爹亲手砸碎?


即便一个新架构最初运行慢50倍,你只需要把代码丢给Agent,它就能在短时间内帮你优化出几乎能榨干GPU算力的专用内核。


硬件彩票的壁垒,正在被智能体开发生态自己砸碎。


统治AI十年的Transformer,要被亲爹亲手砸碎?


这意味着,一旦有人在百万Token、千万Token的极长上下文任务上,用Post-Transformer架构跑出一条更漂亮的困惑度曲线,哪怕只有一点点优势,也会在scaling的放大镜下,形成对旧帝国的致命一击。


Kaiser甚至主动提议:应该建立一个统一的测试标准——用困惑度衡量所有架构在同等条件下的学习能力。


「我们应该在这件事上达成共识,然后各自去证明自己的架构更好。」


这句话的潜台词是:挑战赛正式开始。


而Jones的最后一句话更直接:


今天我没有得到任何理由让我怀疑自己的信念:有更好的东西存在。当那个突破到来,我们所有人都会进入后Transformer时代,Łukasz也不例外——因为他届时别无选择。


这场「拳击赛」看似戏谑,但它的胜负直接决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。


如果后Transformer(Post-Transformer)阵营拥有更优越的Scaling Law(缩放定律)曲线,整个人类通往AGI的物理路线图都将被改写。


参考资料:

https://x.com/probnstat/status/2057522470760914957?s=20

https://www.youtube.com/watch?v=hCjoMLuCuLQ


文章来自于"新智元",作者 "大卫"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI