刚刚,OpenAI把Transformer作者挖走了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,OpenAI把Transformer作者挖走了
9929点击    2026-06-18 10:40

AI 圈又迎来一次标志性的人才流动。


就在刚刚,Transformer 论文作者之一,知名 AI 研究员 Noam Shazeer 在 社交媒体发文宣布,他将正式加入 OpenAI。


刚刚,OpenAI把Transformer作者挖走了


他写道:


「我很兴奋地分享,我将加入 OpenAI,并期待与那里出色的团队合作。


这是一个艰难的决定,决定离开。我对 Google 的优秀团队以及我们共同打造的一切感到无比自豪。与你们所有人共事是一种荣幸和乐趣。」


刚刚,OpenAI把Transformer作者挖走了


对于普通用户来说,Noam Shazeer 可能不是一个高频出现的名字。但在今天的大模型行业里,他几乎站在所有关键故事的交汇处。


ChatGPT 里的那个「T」,来自 Transformer。而 Shazeer 正是 2017 年论文《Attention Is All You Need》的八位作者之一。


OpenAI 从 Google 挖走的,不只是 Gemini 的一位负责人,也是一位亲手参与搭建现代大模型底层技术的人。


从 Google 早期员工,到 Transformer 作者


Shazeer 不是近几年才冒出来的 AI 明星。


他 2000 年加入 Google,是早期员工之一。最开始,他做的是搜索和广告系统相关工作,包括拼写纠错、广告文本排序、垃圾邮件检测、新闻排序等工程项目。换句话说,他在 Google 的前十多年,几乎涉猎了这家公司的所有核心业务。


刚刚,OpenAI把Transformer作者挖走了


转折发生在 Google Brain。


2012 年前后,Google Brain 成为 Google 内部探索深度学习的核心团队。Shazeer 从应用工程走向基础研究,也进入了后来重塑整个 AI 行业的技术脉络。


2017 年,《Attention Is All You Need》发表。论文提出 Transformer 架构,用注意力机制取代过去在机器翻译中常见的循环网络和卷积网络。它带来的关键变化,是让模型训练更容易并行,规模可以继续变大,能力也开始随规模增长而显著跃迁。


刚刚,OpenAI把Transformer作者挖走了


此后,GPT、BERT、Claude、Gemini 等大模型,都与 Transformer 这条技术路线有关。


在这篇论文里,Shazeer 的贡献是突出的。他参与了注意力机制、多头注意力等关键设计,也亲自写过早期实现代码。后来他还提出过 Mixture of Experts、Multi Query Attention、Adafactor 等技术方向,许多都直接影响了今天大模型训练和推理的效率。


某种意义上,OpenAI 今天能成为 OpenAI,Google 当年那批研究者是绕不开的源头。


他曾经离开 Google,只因 Google 没有发布那个聊天机器人


Shazeer 与 Google 的关系,也历经几番波折。


2018 年,Google Brain 研究工程师 Daniel De Freitas 开始做一个对话 AI 项目。Shazeer 很快成为核心合作者。到 2020 年,他们做出了 Meena,一个 26 亿参数的神经对话模型。


Meena 可以闲聊、开玩笑、讨论电视节目,也能进行更复杂的对话。Google 当时公开介绍过它,并称其在「合理性和特异性平均」指标上领先同类聊天机器人。


但 Google 没有把 Meena 推向公众。


原因并不难理解。聊天机器人会生成不可控内容,可能带来品牌风险、安全风险和舆论风险。Google 在搜索、广告、移动系统等领域都有庞大既有业务,任何一个 AI 产品的失误,都会被无限放大。


Shazeer 显然不满意这种谨慎。


刚刚,OpenAI把Transformer作者挖走了


据后来报道,他曾认为 Meena 有机会替代 Google 搜索,并创造巨大的商业价值。2021 年,他和 Daniel De Freitas 离开 Google,创立 Character.AI。


后来的故事,几乎成了大模型时代最典型的 AI 创业样本。


Character.AI 的产品很简单,也很敏锐。


用户可以和 AI 角色聊天。角色可以是历史人物、虚构人物、名人,也可以是用户自己创建的陪伴型角色。它没有把 AI 包装成效率工具,而是把 AI 做成了一个可以长期互动的对象。


这让 Character.AI 很快在消费级 AI 产品里获得大量用户。


2023 年 3 月,Character.AI 完成 1.5 亿美元 A 轮融资,a16z 领投,估值达到 10 亿美元。移动应用上线后,首周下载量超过 170 万次。平台用户停留时长也很夸张,很多人不是问完一个问题就离开,而是把它当成聊天、陪伴、角色扮演和情绪出口。


刚刚,OpenAI把Transformer作者挖走了


问题也随之出现。


用户越多,推理成本越高。大模型产品的商业化并不只看流量,还要看每一次对话背后的算力账单。Character.AI 虽然有高活跃用户,但收入与成本之间长期紧张。


更麻烦的是,角色聊天产品天然会触及内容安全、未成年人保护、情绪依赖等问题。对于一家创业公司来说,既要训练模型、付算力账单,又要做产品增长和安全治理,压力会越来越重。


到了 2024 年,Character.AI 开始寻找新的出路。


Google 花 27 亿美元,把他请了回来


2024 年 8 月,Google 与 Character.AI 达成协议。


表面上看,Google 并没有收购 Character.AI。双方签署的是非独家技术授权协议,Google 可以使用 Character.AI 的大语言模型技术。Character.AI 继续独立运营,Dominic Perella 出任临时 CEO,产品团队继续留下。


但外界真正关注的,是人员的流动。


Shazeer、Daniel De Freitas 以及部分研究人员回到 Google,加入 Google DeepMind。随后,Shazeer 被任命为 Gemini 的联合技术负责人,与 Jeff Dean、Oriol Vinyals 一起负责 Google 最重要的大模型项目。


刚刚,OpenAI把Transformer作者挖走了


多家媒体报道称,Google 为这笔交易支付约 27 亿美元。而这笔钱并不只是买一份授权。更准确地说,Google 用一笔极高成本,把这位曾经离开的关键人物 Shazeer 带回了 Gemini。


如今,不到两年,故事再次转向。


Shazeer 离开 Gemini 加入 OpenAI,则让这场 AI 竞赛进入更微妙的阶段。毕竟,尽管大模型的技术路线仍在高速变化,但一个趋势已经很清楚:顶级研究者的稀缺性在上升。


训练更大的模型,不再只是堆 GPU。推理能力、长上下文、低成本推理、模型可靠性、多模态原生能力、Agent 架构,每一个方向都需要少数真正理解模型结构和训练规律的人。


刚刚,OpenAI把Transformer作者挖走了


Shazeer 的履历刚好覆盖这些关键节点。


他懂 Transformer 的底层逻辑。大模型行业很多人是在使用 Transformer、改造 Transformer、优化 Transformer,而 Shazeer 是最早把它做出来的人之一。


他有规模化模型经验。从 Google Brain 到 LaMDA、Meena、Character.AI,再到 Gemini,他经历过研究、产品、创业、基础模型工程和消费级应用。


他见过大公司与创业公司的两种极限。


Google 的谨慎,Character.AI 的增长与成本压力,Gemini 的追赶任务,都让他比单纯研究者更了解大模型走向产品时会遇到什么。


OpenAI 得到他,相当于得到一位从大模型史前时代一路走到今天的工程型研究者。而 Transformer 诞生近十年后,当年那批作者留下的影响,还在继续影响 AI 公司的格局。



文章来自于微信公众号 “APPSO”,作者 “APPSO”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md