
很多人知道,Transformer 是谷歌发明的。但 ChatGPT,却不是谷歌做出来的。这件事,在过去几年,几乎成了硅谷最大的“遗憾注脚”。
但如果真正走进今天的 Google DeepMind,你会发现谷歌并不是“慢”,而是在下一盘更大的棋。
近期,Google DeepMind 首席运营官 Lila Ibrahim 与谷歌研究、技术与社会高级副总裁 James Manyika 在一档播客中,第一次系统性拆解了这家公司正在发生的变化:
如果说 OpenAI 是一家高速冲刺的创业公司,那么今天的谷歌,更像一座重新启动的 “现代版贝尔实验室”。
DeepMind 运作模式有两个核心方法论:
制定宏大的研究议程,但不规定路径,研究者拥有高度自由。
生物伦理学家、神经科学家、计算机科学家可以在同一张桌子上工作,这是谷歌的日常。
而在这套机制背后,还有一个关键变量,即 Google DeepMind 的灵魂人物 Demis Hassabis。他拥有对时机的精准判断,既能自上而下设定方向,又允许自下而上产生创新。
比如 Demis Hassabis 判断,2026 年 Gemini 已经足够成熟,可以全面吸收 DeepMind 在“学习科学”上的积累。 这种判断,决定了资源如何倾斜,决定了产品什么时候进入爆发期。
James Manyika 提到,过去三年最大的变化,是把 Google Brain 和 DeepMind 合并,围绕 Gemini 建立了一个中央 AI 引擎。在这一模式下:
与此同时,谷歌实验室文化正在回归,而且规模比过去更大。
James Manyika 透露,实验室目前同时推进约 30 个项目。
谷歌有一套闻名硅谷的创新机制,即全体员工拿出 20% 的时间用来做项目以外的探索,这会源源不断爆发出好产品来反哺谷歌。比如能消化资料的 Notebook LM ,AI 电影制作工具 Flow。
如果只看生成式 AI,你会低估谷歌。因为 DeepMind 同时在推进生物研究、教育体系、材料科学、气象预测、量子计算、太空算力计划等。而在不少领域,谷歌已经取得里程碑式成就。
从量子纠错的突破,到覆盖 150 个国家的洪水预测系统,再到试图把 TPU 送入太空进行训练的 Project Suncatcher,这些布局显示出一种极少见的长期视角。
“从谨慎地发布”到“在发布中学习”, 谷歌完成了新节奏的转变。这家公司,正在重新定义什么叫“长期主义”。当它真正开始加速时,人们是否已经意识到,它的棋局,比所有人想象的都要大?
以下是播客的精彩细节,有更多谷歌最新进展,欢迎来看:
谷歌 DeepMind 的运作模式:贝尔实验室与阿波罗计划
主持人:DeepMind 首席执行官 Demis Hassabis(戴比斯・哈萨比斯)之前在我们节目里,把 DeepMind 形容为现代版的贝尔实验室。Laya,这具体意味着什么?你能介绍一下它的研究模式吗?它是实验室模式还是公司化运作?
Laya Ibrahim:我想先从我们的使命“负责任地构建 AI,造福人类”说起,因为一切都以此为基础。
首先,我们会制定极具雄心的研究议程,只明确大方向,不规定具体做法。 我们的思路借鉴了 贝尔实验室的黄金时代,也参考了 阿波罗计划,甚至还有 皮克斯。核心是汇聚顶尖人才,打造能让他们成功、能放手探索的环境。
第一,明确宏大的研究方向,告诉团队聚焦哪些领域,但不规定他们如何工作。
第二,由于研究范围极广,我们要打造跨学科团队。 我们要营造一种文化,让生物伦理学家、计算机科学家、神经科学家能并肩工作,我们认为这才是产生突破、创造价值的关键。这种方式已经带来了很多非凡的成果。我们也敢于探索,并且懂得判断时机。Demis Hassabis 在把握节奏上非常出色:该投入探索、设定宏大目标、评估进展;也敢于果断叫停,或是加倍投入。
一个很好的例子:过去几年我们一直在学习科学领域深耕,研究人类如何学习、如何改进学习方式。今年 Demis Hassabis 判断,Gemini 已经足够成熟,可以把我们在学习科学上的积累全面注入 Gemini,这也是我们的重点方向之一,以此提升 Gemini 为学习者提供的能力。 谷歌 DeepMind 在时机判断上,确实有很独特的地方。
主持人:我们再梳理一下流程。就像你刚才说的,Demis Hassabis 判断 Gemini 已经准备好承接学习科学相关能力,于是 DeepMind 开始推进。谷歌 DeepMind 的工作,自上而下和自下而上的比例大概是多少?Open AI 曾把自己的模式形容为大公司里的一堆初创公司。谷歌是类似模式,还是更偏自上而下?
Laya Ibrahim:因为我们的使命非常宏大,我们要找到 AI 能够帮助人类解开宇宙谜题、应对人类重大挑战的核心方向。这个范围足够广,我们既可以做气象研究、提升天气预报,也可以做 AlphaFold(是 DeepMind 开发的、能精准预测蛋白质 3D 结构的 AI 程序,被称为结构生物学的革命)。这样的蛋白质结构预测,帮助理解疾病、研发疗法;还可以持续优化生成式 AI,改善人们的生活。
我们采取非常宽泛的 组合布局,但同时 给研究者留出探索空间。这也是我一开始说的,我们要找到合适的人才,即使命驱动、价值观一致、愿意探索、追求大影响力、能依托谷歌平台实现规模化的人。Demis Hassabis 在这方面的思考非常出色,他深耕这个领域已经很久了,DeepMind 成立 16 年,这几乎是他毕生的使命。同时我们团队里满是富有创造力、喜欢跨学科协作、希望改变世界的人,他们也会提出自下而上的思路和做法。所以 是两者结合,一部分是 Demis Hassabis 主导的自上而下,一部分是团队自下而上的探索。
主持人:这种组织架构对管理和人才要求很高。我们再把视野放大到整个科技行业。曾经有一段时间,很多科技公司会给顶尖人才很大的自由度,去探索短期看不到成果的方向。后来突然进入 AI 竞赛,很多公司把做长期项目的研究者和产品绑定得更紧,长期研究几乎被要求立刻产生产品价值。这种变化在 DeepMind 内部也发生了吗?
Laya Ibrahim:我加入谷歌大概八年了,我们确实经历了一段发展历程。但谷歌 DeepMind 之所以能让很多员工长期留下来,正是因为我们有足够宽泛的布局。有些人希望继续做前沿 AI 的深度研究,或是偏科学方向的探索,我们有空间支持这种纯探索;同时我们也能落地生成式 AI 的进展,比如去年 Gemini 取得的一系列突破。
主持人:我再进一步追问。谷歌内部的转型被描述为:不再让每个产品部门各自制定 AI 路线,而是公司内部有一个中央引擎,也就是 AI 部门,负责构建 AI 能力,再赋能给各个产品部门。你能介绍一下这个流程吗?
Laya Ibrahim:这也是过去几年最令人兴奋的变化之一,即 Google Brain 和 DeepMind 合并,把谷歌最优秀的 AI 团队和研究力量汇聚到一起,让我们可以布局更广泛的领域。正如你所说,我们的定位是 AI 创新引擎。但我不会说我们是 “分发” 技术给其他谷歌团队,而是和产品部门、用户紧密协作,了解真实需求,从一开始就把模型做得更贴合场景,以协作、负责任的方式推进。等到技术落地到谷歌各个产品时,已经经过大量测试,并可以针对特定场景优化。 这也带来了很好的结果,比如我们发布 Gemini 3 之后,立刻就能向大量开发者和用户开放使用。
主持人:最后一个问题,然后我交给 James。我们节目有一个观察:Sundar Pichai(桑达尔・皮查伊)曾在麦肯锡工作,现在谷歌的重组、集权、再协同各团队的方式,很像麦肯锡式思路。这一点是否属实?
James Manyika:我本人也曾在麦肯锡工作,或许我能回应这个组织架构的问题。现在谷歌的格局非常特别:一方面是 Gemini 项目,这是所有能力的基础,构建大规模模型,Gemini、Gemini 2.5、Gemini 3 等等。三年前,我们整合 Google Brain 和 DeepMind 团队,启动 Gemini 项目。如今这个项目支撑着全公司的产品 ,你能在搜索、Google Workspace、Notebook LM 等所有产品里看到 Gemini。它是底层基础,这也是为什么谷歌 DeepMind 和 Gemini 项目成为了核心引擎。
除此之外,公司还有大量深度科学研究,聚焦最根源的问题,打开大量研究和创新的入口。 我们还有很多其他雄心勃勃的项目,比如 Genie 构建世界模型,还有为 Waymo 做的专项工作,提升自动驾驶模型的能力。所以并不是严格的自上而下,而是以 Gemini 项目为基础,确保每一次快速迭代。现在我们大概每 6 个月就有新一代 Gemini 问世,并且立刻全产品落地,没有延迟。最新版 Gemini 一推出,就会出现在搜索、Gemini App 等所有地方。这就是过去三年发生的核心变化。
谷歌实验室的回归与 AI 原生产品的落地
主持人:我们来聊聊实验室。早期用过谷歌产品的人都记得,谷歌曾经有一个实验性极强的时代,后来实验室一度消失。虽然实验没有完全停止,但实验室被重启后,我们开始看到谷歌推出大量实验性项目,已经很久没有这种景象了。实验室在其中扮演了多大角色?为什么实验室重新回归?
James Manyika:实验室非常有意思。三年前,在 Sundar Pichai 的推动下,我们重启了实验室。 当时正处在 AI 爆发的节点,我们想探索、实验、打造完全以 AI 为核心的原生产品。实验室的思路是:把谷歌 DeepMind、谷歌研究以及公司内部所有顶尖研究成果拿过来,专注打造实验性的 AI 原生产品。
大家最熟悉的应该是现在的 Notebook LM(是 Google Labs 推出的、基于 Gemini 模型的 AI 原生研究与学习工具,核心是让你把自己的资料 “喂” 给 AI,让 AI 基于你的专属内容提供服务)。它的起源非常有意思。一开始它叫 Tailwind,只有四五个人做,想法是打造一款 AI 原生的研究工具,基于用户自己的内容来工作。你可以把资料、书籍、论文、草稿、任何你想导入的内容放进 Notebook,然后和它交互。这个创意一定程度上也受到作家 Steven Johnson 的启发,他会保存几十年的笔记、书稿草稿,他希望有一个产品能把所有资料放进去,然后交互提问:我 1997 年是怎么想的?那份草稿写了什么?Notebook LM 最终就变成了这样一款强大的研究工具,基于用户自有内容,生成摘要或文稿时会附带引用来源,这是它的核心功能。如果它引用了你的内容,会标注出处,你可以点击跳转回原文,非常实用。
后来我们又想:有时候我不想只读资料,想听资料。于是我们加入了 AI 音频概览功能,效果就像播客,有两位主持人对话解读。这个想法最早来自 Jeff Dean 等团队,他们每天要读大量计算机科学论文,希望能在通勤时听论文总结,筛选要精读的内容。而且人们通过对话、讨论学习的效果更好,这也是研讨会的价值,于是就有了音频概览功能,产品也因此真正爆发。每次我做 AI 演示,都会现场建一个 Notebook,然后播放播客,第一次接触的人都会非常震撼。很多观众和听众问我:“你们是不是用你的声音训练的?” 因为听起来很像我。我都会说:不是,只是它开头总会说 “我们来拆解一下”,几乎所有播客都会这么开场。
Notebook LM 还有一个很好的使用场景:你可以导入各种格式内容 —— 论文、YouTube 视频、本地文件。我曾经用过一个场景:处理来自 100 多个国家、不同语言的论文,全部导入后直接跨语言交互,现在它还支持生成视频概览,带图表和幻灯片的那种。这就是实验室里发生的事情:把 DeepMind 和谷歌研究的顶尖成果,转化为优秀的 AI 原生产品。
另一个例子是 Flow(是 Google Labs 推出的 AI 电影制作工具,由 DeepMind 的 Veo、Imagen 与 Gemini 模型驱动,专为创意人士打造,能把文字、图像转化为连贯、高质量的视频片段与完整场景)。我讲个小故事:我人生第一次也是最后一次登山,是厄瓜多尔的科托帕希火山。我想做一段视频记录,但有些瞬间我没有拍,只想专心登山。比如我的水壶从背包掉出来,滚下冰川消失在暗处。我想用动画还原这个片段,就用了谷歌的视频生成工具 Flow,输入指令生成纪录片风格动画,插入到视频里。放在以前,我得专门找动画师。Flow 就是实验室诞生的神奇产品。
当时实验室负责人 Josh Woodward、Demis Hassabis 和我们几个人聚在一起讨论:如果把现有工具整合起来,能做出什么实用的东西?最初版本比较粗糙,后来我们找了真正的电影制作人交流,获取反馈。实验室的一大特点就是和创作者深度合作,让他们帮助我们打磨工具。Flow 就这样诞生了。你可以逐镜头提示生成视频,并且支持连贯生成,这也是 “Flow” 这个名字的来源。最初的版本不够好用,电影制作人提出:他们需要逐镜头创作、拼接、连贯制作。于是我们做了优化。
实验室大概同时在推进 30 个实验项目,你去谷歌实验室网站就能看到。
主持人:我有个请求,扩大开放范围,很多项目看起来很有意思,但每次都显示等候名单。
James Manyika:我们会努力的。比如 Pomello(面向传统中小企业的 AI 营销工具,由 Google Labs 与 DeepMind 联合开发),面向中小企业的工具,不是那种科技初创公司,而是传统中小企业,帮助他们快速搭建富有创意的线上展示页面。还有 AIR Studio(面向开发者的无代码 / 低代码 AI 原型开发平台),面向开发者。我们希望为各类创作者,比如开发者、艺术家、电影制作人、音乐人,打造顶尖 AI 工具。
20% 的时间用来创新
主持人:有两个产品我特别想试用,可能会成为下一个 Notebook LM:一个是 CC(基于 Gemini 的个人 AI 助理、生产力智能体,类似 “超级版 Notion AI + 个人日程管家),谷歌内部的实验性生产力智能体;另一个是 Disco(基于 Gemini 3 的生成式浏览器,核心能力是 GenTabs),你可以基于一堆链接生成网页应用。比如你规划周末活动,打开一堆网页,它就能自动生成对应应用,比如自定义地图,标注各个活动地点,你选定日期,它会高亮当天可用的项目。
我想问两位:过去谷歌有所谓 “20% 时间” 的机制,员工可以用 20% 的工作时间做本职以外的项目,很多重磅产品比如 Gmail 就来自于此。这些实验项目是谁做的?20% 时间是不是以某种形式回归了?这么多有趣的实验,在公司内部是如何推进的?
James Manyika:我可以先回答。这种机制实际上依然存在。回到实验室,大概 80% 的项目来自实验室团队,另外 20% 就来自 20% 时间项目。
我举个教育领域的例子,这也是 Laya 和我非常重视的方向。谷歌研究的一位员工,本职工作和教育无关,但他提出一个想法:能不能让人们用自己适合的方式学习?现在的 AI 工具已经可以支持多样化的学习方式。这个项目最终变成了 “Learn Your Way”( 是 Google Labs 推出的、基于 LearnLM 的 AI 个性化学习实验工具,核心是把静态教材、资料变成适配年级、贴合兴趣、多模态互动的学习体验),你可以在谷歌实验室里找到这款实验产品。它不是实验室团队做的,而是公司其他部门员工的创意。 我们持续从全公司收到各种出色创意。
另一个例子是 Co-Scientist(是 Google Research 基于 Gemini 2.0 打造的多智能体科研协作系统,定位是人类科学家的虚拟研究伙伴,核心是模拟 “假设生成 — 辩论 — 验证 — 迭代” 的完整科研流程,帮研究者加速发现、突破思维局限),来自 DeepMind 和谷歌研究,是帮助科学家进行科研发现的工具,之后会放到实验室里测试、迭代,但它并不是在实验室内部构建的。全公司员工产生创意的机制依然非常活跃,也带来了很多令人兴奋的创新。
Laya Ibrahim:DeepMind 的研究者同样有机会构建实验性产品。 这其实是我们文化的一部分,给大家探索的空间,并且坚持跨学科方式,不只局限于研究者,这一点非常令人兴奋。我们会汇聚不同视角,解决真实挑战。有时候甚至是用 AI 工具提升自身工作效率: 比如让法律团队更快审核研究论文、获取反馈;为责任团队做更自动化的红队测试;还有解读古代文献。
我们有一个项目,是一位研究者自主发起的探索:不只关注今天的智能,还要挖掘被遗忘的历史知识。他牵头做了一个项目,不仅能鉴定泥板年代,还能补全缺失内容、进行翻译。这就是 Project ANEKS 项目(是 Google DeepMind 的一个 AI 研究项目),专注古代文献研究。正如 James 所说,谷歌最不缺的就是聪明、有好奇心的人,而且公司文化支持这种探索。
主持人:我解释一下我为什么这么关注这一点。上世纪,S&P 500 公司(美国 500 家顶尖上市公司的股票指数)的平均存续时间是 67 年,现在只有 15 年。AI 时代到来,变化会更快,创意来源、实验和新项目的能力,对一家公司的长期存续至关重要。所以我非常关心谷歌内部是如何运作的。
Laya Ibrahim:我之前做过风险投资,我曾觉得风投是最了不起的地方,因为能接触到有大胆想法的创业者。但我在谷歌的感受是:创新就是日常文化的一部分,在各个部门都在发生。 只是 DeepMind 和谷歌其他部门的呈现方式不太一样,但整个公司都在支持创新。
James Manyika:我再补充一点。谷歌的研究文化非常独特,回到你最开始提到的贝尔实验室,不管是 DeepMind 还是谷歌研究,我们都坚持一个理念:从研究走向现实。很多研究突破会非常快地转化为现实影响力。AlphaFold 就是很好的例子,它是诺贝尔奖级别的突破,而现在全球已有超过 190 个国家、350 万研究者在使用它。还有天气预报领域的突破,现在已经投入实际使用,我们的洪水预警系统已经覆盖 150 个国家、20 亿人。把科研突破转化为社会影响力,是我们非常独特的一点。
主持人:有个问题我必须问,不然观众会问我为什么不问。很多年里,外界对谷歌的印象是 “不敢发布产品”。最典型的例子:Transformer 模型是谷歌发明的,而 ChatGPT 是第一个基于它的主流应用。我年底采访过 Sam Altman,他当时说过一句很受关注的话:如果谷歌早期就重视我们,他们早就把我们碾压了,而现在他们是强大的竞争对手。“发布产品” 这件事,在谷歌内部是不是变得更重要了?把实验推向公众的野心是不是更强了?
James Manyika:我认为是的,而且这是一个自然演变的过程。谷歌一直在产生大量研究突破,我们始终存在一种良性的张力:产品是否已经准备好?我们并不总能做出完美判断,但我认为这种张力是好事,是 “大胆与负责并存” 的体现。同时我们也意识到:很多实验和创新,只有让人们使用、体验,我们才能学到东西。这回归到科学方法。产品的红队测试我们做得很多,但真实用户的使用,甚至恶意使用,都能让我们学到更多。这就是一种演变:发布有用的产品,并从发布中学习。 我们现在常说 “持续交付”,Gemini 模型大概每 5 到 6 个月就会迭代新一代, 这就是你看到的变化。
AI 与教育:是助力还是隐患?
主持人:AI 与教育是你们都非常关注且投入很多的方向。你们最近的一项研究显示,85% 的 18 岁以上学生在使用 AI,我猜剩下 15% 是没说实话;81% 的教师表示在使用 AI,远高于全球公众 66% 的 AI 使用率。AI 正在对教育产生真实影响。先从你们的视角开始:这对教育整体是积极的吗?批评声音也很多,比如学生用 AI 作弊,教师批改的是作弊生成的作业。实际情况到底是怎样的?
Laya Ibrahim:首先,正如 James 之前所说,这是一个非常重要的领域。我们对待它的方式和其他领域一致:既要大胆思考 AI 如何改变学习方式、释放人类潜力,也要保持负责,识别风险并投入资源降低风险。我们在调查中还发现,约 80% 的成年学习者认为 AI 对学习有帮助,它能以适合的形式、在需要的时候提供信息。我们重点关注的方向之一,是让 AI 不只给出答案,而是带你一步步拆解问题。这一切都建立在科学方法之上。
三年前,我们决定把学习当作一流的科学问题去研究:人是如何学习的?谷歌内部有相关经验和专业能力,同时全球也有大量研究者在做这件事。我们非常慎重地与教育学专家、全球教育工作者合作,推出了 Learn LM。
今年我们把这项能力全面注入 Gemini,并在 Gemini App 中推出引导式学习等功能,帮助用户一步步拆解问题,教会你如何学习、如何分析。我自己也是十几岁孩子的家长,经常在做 “AB 测试”。
主持人:你应该让一个用 AI,一个不用,看看最后谁更好。
Laya Ibrahim:我会把这个加入下一轮实验。我的一个女儿有读写障碍,现有教育体系并不适合她。但我发现,当她把 AI 融入学习,不管是拆解数学题,还是帮她整理混乱的思路、形成通顺的文字,她感到前所未有的自信。我还有一个身体有残疾的妹妹,教育体系也不是为她设计的。放眼世界,太多学生因为没有合适的技术工具而被落下。
我们的设想是:让每一位学生都拥有个性化导师,让每一位教师都拥有教学助手。AI 是生产力工具,它能改变师生互动的模式。我们不是说 AI 是魔法,教师才是核心,但 AI 能解放教师,让他们回归人与人之间的真实互动。我们在教师生产力工具上已经看到很好的进展。我刚去北爱尔兰,当地教师和政府合作做了试点,他们的便利贴上写满了收获:平均每位教师每周节省 10 小时,多出的时间用来陪伴家人,为班里 30 多名不同需求的学生设计教案。 这非常鼓舞人心。但我们仍处在早期阶段,必须意识到这件事事关重大,关系到人的一生。帮助他们学习、打开机会,并从中学习、反哺研究,这至关重要。
James Manyika:我补充一点。我们发现,教 育领域和社会其他领域一样:新技术到来时,不能只是简单嫁接到现有流程里,而是要重新设计工作流程。 举个学习的例子:大家很担心作弊问题。在 AI 普及的世界里,我们或许不应该再用传统的方式考试和评估。一些学区发现,学生使用引导式学习时,是真的在学习,知识掌握程度会提升;但如果只是为了熬夜赶作业,他们就不会认真用。于是这些学区做了实验:增加周测。学生听到要多考试可能会崩溃。但结果是:测试变多,学生为了备考主动使用引导式学习的时间变长,学习效果反而更好。这就是我们需要重新想象学习流程的例子,而不是把技术硬套在现有结构上。我们通过和教师、学校、学区交流,得到了很多有趣的实验和创新结论。我们仍处在非常早期的阶段,但大家对认知卸载等问题的担忧是真实的,我们必须认真对待。
主持人:这一点我想继续聊。和很多技术、尤其是 AI 一样,大家担心的是:有抱负的人会正确使用它,能力大幅提升;而用错方式或不用的人,差距会被拉得更大。《纽约时报》最近有篇文章,不只是学生,教师也在用 ChatGPT,有些学生对此不满。东北大学有学生发现,教授的幻灯片里有拼写错误、图片里出现多余肢体,这些都是 AI 生成的痕迹。你如何看待这种可能加剧社会分化的问题?
Laya Ibrahim:这让我想到当年把电脑引入课堂和大学的时候。我们能从那段历史里吸取很多经验。一方面,我们可以主动做一些事情;另一方面,我们也在召集各方领导者,从体系层面探讨应对方式。我们把管理者聚在一起,讨论在各自机构里建立负责任使用技术的框架。
现在的情况有点混乱,大家各行其是,而我们需要一种探索性的共识:AI 不会消失,公平的使用机会和素养至关重要。有些学生为了领先而用 AI,有些学生因为害怕被视为作弊而不敢用,这就会造成分化,我们也观察到了性别上的差异。我们能做的,是把领导者聚在一起,探讨如何开启新篇章,如何在最大化收益的同时建立护栏、降低风险。去年年底,我、James 和几位同事共同举办了一场活动,分享最佳实践,交流哪些有效、哪些无效,我们的研究者也参与其中。我们还为教师提供实操培训,教他们负责任地使用工具。这更多是为了释放生产力和潜力,而不是替代。激励机制的设计也必须跟上,这一点毫无疑问。
前沿科技进展:量子计算、材料科学、气象预测、太空计划
主持人:请问 James:量子计算的现状如何?它的发展速度比很多人预期的更快。
James Manyika:我们有一支顶尖的量子 AI 团队,正在做突破性的工作。 总的来说,量子计算的进展比大众认知的要快。量子计算的终极目标,是构建完全容错的量子计算机,路线有很多种。主流方向是超导量子比特,也是我们团队在做的,全球很多团队都在研究这条路,复杂度很高,但被认为是最有希望的方向。此外还有中性原子等多种技术路线。
具体进展:底层芯片进步巨大,比如我们的 Willow 芯片,一年半前取得重大里程碑。它完成了一项叫 RCS 的基准测试,一台顶级经典超算需要 100 亿年才能完成,而它只用了不到 5 分钟,还能以突破性的方式纠错。
量子计算一直以来的另一个核心障碍是 平滑纠错:如何在扩容、增加量子比特的同时降低错误率。这是真正的突破,也是我们获得年度突破奖的原因,是我们首次证明可以实现阈值以下纠错 —— 系统扩容,错误率反而下降,这正是我们想要的结果。
另一个重大突破在去年年底:之前所有的基准测试,包括我刚才说的,都只用于 benchmark,没有实际用途。而去年我们首次实现了有实际价值的计算,也就是 Quantum Echoes,相关成果登上了《自然》封面。它完成了一项有用的计算:研究分子的自旋动力学,这是其他方式无法实现的。我们还和伯克利的团队合作,他们通过核磁共振实验在实验室验证了结果。这是第一个有实用价值的量子计算案例。
综合来看,量子计算的进展比大家以为的 “还要几十年” 要快得多。未来五年左右,我们会开始看到量子计算的实用化应用,非常令人期待。
主持人:材料科学是 AI 研究中相对被忽视的领域,AI 可以通过预测技术发现新材料。Laya,介绍一下目前的进展。
Laya Ibrahim:这回到我们的核心思路:AI 能帮助我们解开哪些根源性问题、加深对世界的基础理解,从而为整个领域打开大门。AlphaFold 就是其中之一。你提到的 AlphaGeometry(是 DeepMind 开发的、能自动解决高难度奥林匹克几何证明题的 AI 系统,达到了国际数学奥林匹克“IMO”金牌选手的水平。),还有我们的材料科学项目,都非常令人兴奋。我们把已知的 4 万种稳定晶体,拓展到了 40 多万种,目前正在实验室和研究中测试。这意味着什么?你可以想象 更优质的电动汽车电池、超级计算机的超导体。很多突破都要依靠新材料实现。我们仍处在早期阶段,但我们相信这是一个很有前景的方向,有可能改变我们的生活和工作方式。
主持人:发现新材料之后,会带来什么?比如像 T 恤一样薄,但保暖性媲美冬装的材料?
Laya Ibrahim:没错。你身边的所有东西,都可以通过新材料重新想象。比如电池、电动汽车,如何让车身更轻、续航更长、充电更快,突破现有物理限制。这些都有可能通过基础材料的突破实现。
主持人:接下来是气象预测,谷歌在很多方向上都在深耕 AI 气象。
James Manyika:我们有一个非常庞大的气象项目,由 DeepMind 和谷歌研究共同推进。气象预测的维度很多:普通天气预报,下周、明天天气如何,Graphcast( 是 Google DeepMind 于 2023 年推出的、基于图神经网络“GNN”的全球中期天气预报 AI 模型,是气象预测领域的里程碑式突破)来自 DeepMind,是目前业内顶尖的模型。我们还在预测其他气象事件:季风、飓风、洪水等极端天气。
我举一个影响生命安全的例子:业内早就知道,如果洪水预警能提前 6 天以上发出,就能挽救生命。联合国估计,这样能减少一半的灾害损失。这一直是一个难题。两年半前,我们的团队构建了预测河流洪水的模型,在孟加拉国试点成功。如今,我们的洪水预测已经覆盖 150 个国家、20 亿人。这就是从突破性创新到社会实际价值的典型案例。我们还和国家飓风中心合作,可以提前 15 天预测飓风的 50 条不同路径,并且成功追踪了飓风 Melissa。这类信息对灾害应急意义重大,也能用于航班调度等日常场景。
主持人:最后一个项目:Project Suncatcher( 谷歌的 “太空 AI 数据中心” 计划,在地球轨道部署由太阳能卫星组成的星座,搭载 TPU,利用太空无限太阳能进行 AI 计算)是什么?
James Manyika:这是典型的谷歌式疯狂构想。我们思考:今天如何训练 AI 系统?100 年之后,考虑到训练模型需要的算力和能源,会怎么做?100 年后,我们肯定会在太空训练,毕竟太阳的能量是地球的百万亿倍,而且 24 小时不间断。为什么不现在就朝着这个未来迈进? Project Suncatcher 项目就是这样一个谷歌式登月计划。
我们已经完成了几个关键里程碑,计划把 TPU,一款专用 AI 芯片,送入太空进行训练。我们真的要把芯片送上太空。第一个里程碑是我们希望 2027 年在太空完成若干次训练任务。这就是 Project Suncatcher,一步步走向那个未来。有人会联想到 Dyson Sphere(是物理学家弗里曼・戴森在 1960 年提出的科幻级巨型工程构想,核心是用巨大结构完全包裹恒星,捕获其几乎全部能量,是 II 型文明的标志性能源方案),利用太阳系、甚至银河系的能量。一位前谷歌员工曾提出:如果要走向 AGI,地球可能会布满数据中心;但如果把数据中心放到太空,地球就能留给人类生活。 敬请关注,我们下一个里程碑在 2027 年,希望能完成太空训练。
参考链接:
https://www.youtube.com/watch?v=MkZRak7lVcA
文章来自于微信公众号 "InfoQ",作者 "InfoQ"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md