深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas
6716点击    2025-11-28 09:27

深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


讨论主题:Gemini 3


参与嘉宾:拾象 Best Ideas 社群


最近两周的模型竞赛非常热闹:OpenAI 在 11 月 12 日发布 GPT-5.1,引入更强的推理深度与更高效的对话体验;Google 在 11 月 18 日发布 Gemini 3,全面强化多模态理解与复杂推理能力;Anthropic 在 11 月 24 日又发布了 Claude Opus 4.5,模型在专业文档处理、代码生成与长流程 agent 方面有显著提升。


其中最受关注的无疑是 Gemini 3。Google 在这一代模型中不仅首次在 pre-training 算力投入上追平 OpenAI,也在数据体系、多模态能力、系统架构和产品体验上形成协同式突破,并在多项权威基准上取得领先成绩。随着 OpenAI、Google、Anthropic 在不同维度轮流领跑,大模型竞争格局正加速演变为“三家交替领先”的动态结构。


上周六,我们组织了一场主题是「Gemini 3」的 Best Ideas 深度讨论,从模型能力、多模态体验、训练与推理成本、商业化路径以及未来可能的产品范式等维度,对这次技术跃升进行了系统拆解。


本篇文章是我们对讨论会精华的总结与开源,希望帮助读者更清晰地理解:Gemini 3 意味着 Google 真正意义上的王者回归,也意味着 LLM 新一轮排位赛的大幕已经拉开。


Insight 01

Gemini 3 为什么这么强?


Google 在 pre-training 算力上首次追平 OpenAI


市场猜测 Gemini 3 的训练 FLOPs(浮点运算次数)达到了 6 × 10^25 级别,再次证明了 scaling law 的有效性,这也标志着 Google 在 pre-training 的算力投入上终于不再保守,并且首次实现追平 OpenAI。Sam Altman 也在 OpenAI 内部 memo 中提到,Google 此次模型的进步主要得益于扎实的 pre-training。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

source:The Economic Times


从另一个角度来看,这也意味着 Google 已经解决了算力利用率的瓶颈,因为在这次迭代中,Google 已经可以充分利用自身 TPU 集群的效能,实现了算力规模的指数级跨越。


数据是 Google 的隐性护城河


数据的规模优势是 Gemini 3 能够有很大提升的关键因素。


在行业普遍面临 pre-training “撞墙”的背景下,Google 依然挖掘出了显著的数据增量。有人推测,Gemini 3 的训练数据量相比 Gemini 2.5 增加了一倍,这种数据优势正在转化为模型在 pre-training 阶段的智力壁垒。


从产品竞争的深层维度上看,真正的护城河是拥有 “不可迁移的数据”,即那些爬虫无法抓取、竞争对手无法简单复制的数据资产,这正是 Google 的优势所在。


具体来说,Google 拥有二十多年积累下的用户数据,涵盖了搜索历史(Chrome)、视频观看记录(YouTube)以及对用户行为的深度理解,这些数据构成了极强的 context 壁垒。如果 Gemini 可以深度整合这些行为数据,它或许能比 OpenAI 更精准地理解用户习惯,提供远超 ChatGPT 的个性化服务。更进一步,或许 Deep Research 这一高度依赖搜索引擎质量的产品上,Google 会比 OpenAI 更具优势。


但今天 OpenAI 也敏锐地意识到了 context 的重要性,正在通过 Memory 功能、Atlas 项目以及 Operator(Agent)等手段努力积累用户的 context,不断打磨产品,试图构建类似的壁垒。但总的来说,在移动端系统层级的行为数据获取上,Google 还是拥有天然的渠道优势。


稀疏化 MoE 架构与 TPU 的系统级优势


在模型架构层面,Gemini 3 采取了更为激进的工程策略。与单纯堆叠参数不同,Gemini 3 展现了一种独特的演进方向:相比 Gemini 2.5,Gemini 3 的总参数量虽然巨大,但激活参数量(Active Parameters)反而变小了 。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

source:[Gemini 3 Pro] External Model Card - November 18, 2025


这背后其实是 Google 对稀疏化混合专家(Sparse Mixture-of-Experts,MoE)架构的深度应用,模型的稀疏度(Sparsity)甚至可能超过了 50%,这意味着模型在处理每一个 Token 时,能够以更少的计算资源调用更广阔的知识储备。


稀疏化混合专家(Sparse Mixture-of-Experts,MoE)是一种神经网络架构,其中有多个“专家”(子网络),但每次只激活(运行)极少数几个专家来处理输入,从而在保持巨量参数空间的同时,大幅降低每次推理或训练的计算成本。


但这种极度稀疏的架构设计对推理硬件提出了非常高的要求,因为在推理过程中,模型需要频繁地从海量参数中加载特定的“专家”模块,这对 HBM(高带宽内存)的容量和带宽构成了巨大挑战。


对于大部分厂商而言,受限于 HBM 的高昂成本,难以经济地部署这类架构,但 Google 依靠自研的 TPU 和 OCS(光路交换)互联技术,构建了一套软硬高度耦合的系统 。这种架构使得 Google 能够在大规模稀疏模型的推理上,实现比传统 GPU 集群更具成本效益的解决方案。


也有人提到一个视角是,所有头部 lab 中,只有 Google 的研究人员几乎从不需要为 infra 操心,也就是说 Google infra 非常稳定,使得研究员可以专注于算法本身,而在其他公司,研究员需要花大量时间去修 Bug、调 Infra。


Google 的“产品经理式编程”思维


在 AI Coding 上,Google 并没有盲目复制 GitHub Copilot 或 Cursor 的路线,而是通过 Gemini 3 展现了一种独特的“产品经理式编程”思维。


具体来说,当开启 Gemini 3 的 Thinking 模式时,Gemini 3 不会像其他模型那样急于生成代码片段,而是先深度分析用户的问题,并输出一份详细的任务需求书或计划书,清晰解释修改思路及预期结果。随后,它会设计自动化测试方案或指导用户进行分步骤的手动测试,最后才真正执行代码的编写与修改。


这种流程在中大型项目中被认为是非常具有价值的,因为用户可以在“文档阶段”就介入审查,如果发现方案有误可立即要求修正,从而有效避免了生成大量错误代码后带来的回滚成本。


而且在全栈联动上,Gemini 3 也进行了优化。


 Claude Code 或 Copilot 在处理复杂需求时,有时会出现“偷懒”现象,例如仅修改后端接口而忽略前端适配,或假设用户会自行完成修改。


• Gemini 3 在处理包含前端、后端、移动端及桌面端的复杂项目时,展现了极强的多模态感知与联动能力:它能够识别出在后端逻辑修改后,前端组件及移动端 API 需要同步进行变更,并提供完整的跨端修改方案。此外,Gemini 3 前端 Coding 能力,特别是 UI 还原方面,也受到了用户的广泛好评。


组织成功完成磨合与升级


Gemini 3 这一技术突破的背后还体现了 Google 内部组织与研发模式的成功转型:过去一段时间,DeepMind 与 Google Brain 的整合过程以及随之而来的内部磨合,在一定程度上拖累了模型的迭代节奏。但从 Gemini 3 的最终表现来看,Google 似乎已经克服了这些内部阻力。


而且 Google 可能已探索出一套适合大公司的大模型研发模式:依靠强大的算力资源与这套组织机制,在即使在面临较高的人才流失率(甚至核心人才流失)的情况下,Google 依然能推动模型持续迭代。


Insight 02

大模型竞争进入三家交替领跑的新格局


随着 Gemini 3 的发布,大模型竞争格局将演变为 Google、Anthropic 与 OpenAI 这三家交替领先的态势。这种格局的演变不仅反映了各家在技术路线上的分化,也体现了各家在商业战略和目标市场上的差异化。


Google


Gemini 3 的核心竞争力构建在自身断档式领先的多模态能力之上,尤其是模型在读图与视频理解等非常规任务中展现出的推理能力,为 Google 在多模态交互领域筑起了极高的技术壁垒。更为关键的是,得益于自研 TPU 集群,Google 拥有行业极低的推理成本优势。


 Google 在 agentic 能力和 coding 能力上并没有非常领先,Gemini 3 的 coding 能力更像是和 OpenAI、Anthropic 处于同一个水平线上。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

source:[Gemini 3 Pro] External Model Card - November 18, 2025


OpenAI


尽管 GPT-5.1 依然被公认为是行业内的顶级模型,但面对 Gemini 3 时,GPT-5.1 曾经拥有的“绝对统治力”正在被稀释,可以从两个核心角度来看:


1、OpenAI 可能在 pre-training scaling 遭遇阻碍


虽然尚未正式证实,但有人认为,考虑到 Gemini 3 成功证明了 Scaling Law 依然有效,OpenAI 在模型能力进步上停滞可能更多源于内部 pre-training 节奏的延误:


 尽管 OpenAI 仍然重视基础研究,但近阶段的资源与关注点更多投入到了 ChatGPT 等产品线。


 技术推进上的放缓也反应到了组织层面的调整,相比之下,Google 的 pre-training 团队处于在经历磨合后状态最好的时期,模型迭代节奏非常紧凑。


2、OpenAI 的“post training 护城河”不再坚固


行业内形成的一个共识是:Google 的强项在于 pre-training 和 Infra,而 OpenAI 的优势是 post training。


长期以来,OpenAI 依靠积累的 RLHF,在让模型变得“听话”、“好用”以及符合人类价值观方面拥有显著优势。但随着 Gemini 3 在 pre-training 阶段追平甚至反超,OpenAI 的这一护城河变得不再稳固,因为随着 Google 模型 pre-training 能力的变强,模型 post training 的效果也会增强。


但 OpenAI 并非毫无还手之力,在 agentic 任务和工具调用上,GPT-5.1 依然是目前的绝对王者:在一些衡量模型复杂指令执行与工具使用能力的基准测试中,GPT-5.1 的分数依然高于 Gemini 3。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


此外,OpenAI 的优势还在于独特的产品哲学与用户体验。如今,对于 OpenAI 来说,技术指标并非一切,OpenAI 的壁垒还在于对“什么是好的回答(Helpful Answer)”有着深刻的定义,而且 ChatGPT 牢牢把控着 Chatbot 领域的用户心智,这种产品层面的“软实力”和长期建立的用户心智是 Google 即使发布了更强模型也难以在短期内撼动的。


此外,OpenAI 拥有 2000 万的付费用户,这不仅仅是收入来源,更是全球最优质的真实人类反馈数据源,源源不断地支撑着 OpenAI 自身模型 post training 的迭代。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


一个有趣的观察是:OpenAI 以前只做模型,现在开始做浏览器、做搜索、做群聊、做用户增长(User Growth),而且是以互联网的方式在做产品,而 Google 本身作为互联网公司,现在反而在努力追赶做模型,发布的产品也是模型驱动的。两家公司的路径在某种程度上正在趋同。


@XBench Gemini 3 Pro 测评


红杉中国的 XBench 也对 Gemini 3 Pro、GPT 5.1 进行了测评,结论是 Gemini 比 GPT 5.1 更能做到“多快好省”。


XBench 是红杉中国在 2025 年发布的 AI 基准测试框架,它通过“双轨评估体系”同时衡量模型的 AGI 能力上限与在实际商业场景中的应用价值。


测试基于 500 道博士级题目,从以下 3 个纬度看测试结果:


1、智力维度


Gemini 3 Pro 的准确率比 GPT-5.1 高出了约 10%。这表明在深层次的知识推理和逻辑构建上,Google 已经处于行业领先地位。


2、速度


Gemini 3 Pro 的平均处理速度约为 50 秒/题,而 GPT-5.1 需要 150 秒/题,前者速度是后者的 3 倍。这种差异的背后是更高效的思维链,使得模型能以更短的思考路径直达正确答案,从而大幅减少了 Token 消耗和延迟。


3、成本


完成同样的 500 道复杂题目,GPT-5.1 的 API 调用花费了 32 美元,而 Gemini 3 Pro 仅花费了 3 美元。


1/10 的成本不仅仅是价格优势,更意味着 AI 商业模式的可行性边界被拓宽。这种性价比使得许多原本因成本过高而无法跑通的商业模式(如大规模、复杂的 Agent 任务)变得具备经济性。同时,这也为开发者提供了更多的选择,让开发者能够根据性价比在不同模型间进行动态切换,加速了模型市场的商品化进程。


如果 Google 后续发布更性价比的模型,会推进 API 市场和云端应用爆发点更快来临。


Anthropic


相比 Google,Anthropic 采取了更为聚焦的差异化策略,虽然在算力规模上或许不及 Google,但 Claude 系列模型在 Coding 和 Agent 稳定性上表现很好,非常受开发者社区与企业客户的欢迎,更适合处理编程自动化以及企业内部工作流。


Anthropic 在 11 月 24 日推出了 Claude Opus 4.5,大幅强化了代码生成、agent、办公自动化以及长上下文处理能力,并将这个模型作为 Claude code 默认使用的 coding agent 模型。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


Insight 03

多模态进入新纪元,LLM 是视频生成的大脑


Gemini 3 在多模态上断档领先


如前文所说,在纯文本和逻辑推理之外,Gemini 3 在多模态理解上也展现了显著的进步,在目前的模型中是断档领先。


有测试者分享了自己的使用体验,Gemini 3 能够稳健处理其他模型频频出错的视觉任务:


1、在识别一张由 AI 生成的长有七根或八根手指的非正常图片时,Gemini 3 能准确数出手指数量;


2、在包含 100 个键盘的复杂图片中,它能准确识别并标出某一个特定按键。


此外,Gemini 3 还能生成有一定审美的图片,比如生成小红书风格的图片,而且这些图片在发布时确实能带来流量,这意味着用户真正能够依赖 AI 进行创作,而这一点可能成为推动 UGC 进一步下沉的关键力量。


这些案例表明 Gemini 3 的视觉编码器(Visual Encoder)与语言模型实现了高精度的对齐。它不再是简单的图像描述,而是具备了精准理解和逻辑推理能力。这种能力的突破,为未来 AI Agent 接管复杂的屏幕操作、理解物理世界逻辑奠定了基础,也再次体现了 Google 在多模态底层技术上的长期积累。


对于国内外的 SOTA 模型来说,生成效果(如视频画质)上的差距相对容易缩小,但智力(Intelligence)上的鸿沟依然显著。有观点甚至认为,Gemini 2.5 Pro 级别的模型在产业探讨和逻辑启发上,模型的表现已经超过了许多人类算法团队成员的平均水平。这种智力层面的壁垒,是单纯堆砌算力难以在短期内跨越的。


Use Case :还原撕碎的购物小票


Xbench 团队提供了一个“还原撕碎小票”的 case:测试者将一张包含复杂购物清单的小票撕成三片,打乱后输入给模型,要求模型还原出完整的小票内容和数据。


我们也对这个 case 进行了复现,Gemini3、GPT 5.1 和 Nano Banana 的结果分别如下:


• Gemini 3:Gemini 3 展现了惊人的逻辑闭环能力。作为纯文本输出,它完美地还原了小票上所有的菜名、单价以及总金额,甚至隐含的加总逻辑都是完全正确的。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

案例复现:Gemini 3 Pro


 GPT-5.1 :即便是具备多模态理解能力的 GPT-5.1,虽然能输出文本,但文字识别和金额数据仍存在明显的误差和遗漏,无法做到精准还原。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

案例复现:GPT-5.1


当将 Gemini 3 输出的这段完全正确的文本作为 Prompt 喂回给 Nano Banana,结果生成了一张既在视觉上逼真,又在文字和数据逻辑上完全正确的小票图片。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

案例复现:Gemini 3 Pro 输出的文本作为 Prompt 输入 Nano Banana Pro


此外,除了让 Gemini 复现外,如果直接用 Nano Banana Pro(Gemini 内图片制作模块) 也可以还原出数值正确的小票,只不过将 Gemini 3 Pro 输出的文本作为 Prompt 输入 Nano Banana Pro 后还原出来的小票信息顺序更贴近现实。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

案例复现:Nano Banana Pro 直接还原的图像


Veo 3 vs Sora 2


Google 的 Veo 3 与 OpenAI 的 Sora 2 代表了两种不同的产品哲学与技术路径,这种分歧不仅仅体现在参数量的差异上,更源于双方对“视频模型应服务于谁”这一终极问题的不同回答。


 Veo 3.1:极致的物理一致性与“去 AI 化”


Googl Veo 3.1 在视频生成的一致性上取得了显著进展,相比于其他模型往往在数秒后就出现人物形象崩坏或场景漂移的问题,Veo 3.1 能够在长达 1 分钟以上的生成过程中,保持人物特征、场景布局和光影逻辑的高度一致,这意味着无论镜头如何切换,视频构建的世界依然稳固。


在画面质感上,Veo 3.1 的“AI 味”已非常淡,质感非常接近实拍的短剧或电影素材。这种真实感源于 Google 团队在数据处理上的独特选择:他们在训练数据清洗阶段,刻意剔除了那些后期过度处理或美化的图片数据。


基于这些特性,有观点认为,Google 可能更倾向于将 Veo 打造成一个服务于电影工业的专业工具,目标是替代好莱坞的部分实拍工作流,甚至用于生成大片,而非仅仅局限于短视频娱乐。


还有观点表示,Veo 团队已成功跑通了 RL 在视频训练中的应用流程。在这个过程中,模型不仅学习像素的分布,更利用强大的 Gemini 文本模型来理解视频内容的逻辑结构。这种将 Diffusion 与 Autoregressive(自回归模型)进行融合的尝试,使得模型对物理世界的理解能力远超那些仅依靠视觉数据训练的模型。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


• Sora 2:创意优先的社交娱乐引擎


OpenAI 的 Sora 2 引入了语音与视觉同时生成的能力,使得生成的视频自带音效和对白,这极大地降低了内容创作的门槛。与 Veo 追求的严肃与真实不同,Sora 2 更聚焦于 6-10 秒的短视频创作,生成风格往往美化度更高,更符合创作者在 TikTok 或 Instagram 等社交平台上的审美需求和创意表达。


有观点表示,OpenAI 希望通过 Sora 2 抓住 C 端创作者的心智,类似于当年 TikTok 降低视频拍摄门槛一样,Sora 2 目的是进一步降低创意视频的生产门槛。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


视频生成领域创业公司生存空间面临挤压


随着 Gemini 3 和 Veo 3 证明了视频生成对底层 LLM 智力的高度依赖,视频生成领域创业公司的生存空间正面临挤压。


过去市场认为的创业公司依靠工程能力和数据处理就能追赶大厂的逻辑正在失效,因为缺乏强大的 LLM作为大脑来理解复杂的视频逻辑结构,单纯的生成模型很难保证长视频的一致性。


而且在过去,许多创业公司更专注于图生视频(Image-to-Video),但这类产品其实主要服务于相对小众的专业创作者。相比之下,文生视频(Text-to-Video)更有机会触达大众、实现破圈。不过,有观点认为,如果创业公司能够在风格或定位上做出足够差异化,仍然可能在这一赛道中找到机会。


Insight 04

Google TPU 会“革英伟达的命”吗?


Google TPU 将模型成本压缩 1/2


从成本效益的角度来看,有人在估算后表示,Google 使用自己的 TPU 进行模型训练和推理的成本大约仅为使用 Nvidia GPU 方案的一半。这一显著的成本差异源于双方不同的商业模式与供应链策略。


Nvidia 目前采用“整机柜销售”策略,这种模式不仅使芯片本身保持着 70% 以上的高毛利,甚至连机柜内部的铜缆互联和其他组件也享有极高的利润空间。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


相比之下,Google 走的是一条自研与集成之路。


虽然 Google 的 TPU 芯片需要向 Broadcom 支付设计费,并需向台积电支付代工费,但 Google 掌控了除芯片核心外的整个系统生态,包括光模块、交换机、服务器以及网络架构。通过这种系统级的自研和组装策略,Google 成功绕过了 Nvidia 在组件层面的层层加价,从而实现了系统总成本的大幅降低。


TPU 可更好和 transformer 架构协同


Google 在硬件架构与模型架构的绑定深度上也超越了 Nvidia。从最底层的晶体管排列到寄存器设计,Google TPU 的设计本质上是为 Transformer 架构量身定制的。这种设计思路意味着,如果未来 AI 模型的基础架构长期停留在 Transformer 或类似的 Attention 机制上,Google 这种软硬高度协同的设计将具有长期的能效和性能优势,会形成难以复制的技术护城河。


此外,还有观点表示,目前底层的云服务商正面临被“白牌化”或“短路”的风险,因为在过去,初创公司选的是云平台(如 AWS)而现在,开发者选的是模型(Gemini、GPT 或 Claude)。而对于同时拥有顶级模型和云基础设施的 Google 来说,这是一个通过模型粘性反哺 GCP 市场份额的巨大机会,而单纯的云厂商可能会像当年的服务器硬件商一样逐渐失去议价权。


押注 scale-out 有利于更大规模模型的训练推理


在架构设计上,Google 和 Nvidia 也展现出了明显的路径分歧。


Nvidia 的思路倾向于“scale-up”(纵向扩展),通过 NVLink 等铜缆电连接技术,Nvidia 将单机柜(如 72 卡集群)整合成一个巨型的“超级芯片”,以追求节点内的高带宽和低延迟表现。


而 Google 则将核心赌注押在了“scale-out”(横向扩展),依靠自研的 OCS(光路交换)技术,Google 希望构建超大规模的 Superpod(超级集群),单个集群的规模可以扩展至 9000 张卡甚至更多。


对于那些需要处理超长 context 或超大参数模型的训练与推理任务,这种基于光互联的架构有独特的性能与扩展优势。


Google 的第七代 TPU 官方代号为 Ironwood,在 2025 年 11 月初(Gemini 3 发布前)就开始向云客户推出,单个 Pod 可连接 9216 个芯片。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


光通信架构可能更有长期优势


在互联技术的技术选型上,Google 长期聚焦在 OCS(光路交换) 与光通信技术。在 TPU v7 的战略规划中,Google 计划大幅提升利用 OCS 连接的千卡以上规模集群的比例。尽管此前外界观察到的 Google 集群多为 128 或 256 卡的小规模互联,但从明年开始,随着 TPU v7 的落地,Google 将推动真正大规模(数千卡)光互联集群的部署。在带宽需求呈指数级上升的趋势下,有观点认为,这种基于光通信的架构会具有更长期的演进优势。


相比之下,Nvidia 目前可能更认可“电”在特定场景下的效率优势。在 scale-up 层面,Nvidia 坚持使用铜缆(电连接)进行直接互联,Nvidia 认为在短距离传输中,电连接比光连接更高效、更可靠,且能避免光电转换带来的额外损耗。


然而,这种深度绑定的铜缆方案也引发了下游客户对 Vendor Lock-in(供应商锁定) 的担忧。为了避免被 Nvidia 的全套方案完全锁定,Hyperscalers(云巨头)开始尝试通过外购光模块和交换机来构建独立于 Nvidia 体系之外的互联层,以降低对 Nvidia 铜缆方案的依赖。


Google 投资 Anthropic 的背后:TPU 生态扩张


最近,Anthropic 宣布将使用 Amazon Trainium 和 Google TPU,这一举动对 Nvidia 构成了实质性的生态挑战。有观点表示,由于 Anthropic 背后的核心团队早期多为 Google 前员工,他们对 Google 的这套技术体系非常熟悉,这使得 Google TPU 的扩圈和落地变得更加顺畅。


2025 年 10 月 23 日,Anthropic 宣布将扩大使用 Google TPU(多达 100 万个芯片,预计可提供超过 1 GW 的算力)作为训练和部署 Claude 模型的关键基础设施。这一举动标志着 Anthropic 在算力供应上采取多平台策略:不仅继续使用 Amazon Trainium 和 Nvidia GPU,而且大规模投入 Google 的定制芯片平台。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


对于 Google 而言,吸纳 Anthropic 这样的主流模型团队使用 TPU,不仅有助于生态扩张,更关键的是能够获得顶级模型团队对硬件架构的反馈,从而加速自身的优化进程。


同样,对于 Nvidia 而言,最大的风险或许不在于少卖了几张显卡,而在于失去了优化迭代的关键客户。Nvidia 的硬件进步及软件栈优化,高度依赖于生态内最重要的几个玩家(如 OpenAI、Anthropic)的反馈。如果 Anthropic 这样的头部玩家完全转向 Google 阵营,不再参与 Nvidia 的硬件优化,Nvidia 将失去宝贵的生态反馈,长期来看,这可能导致 Nvidia 技术迭代方向与前沿模型的发展需求出现脱节。


但尽管 Google 在架构上拥有独特优势,Nvidia 的技术迭代斜率依然非常陡峭。Nvidia 正在加速推出 Rubin 架构,并积极引入 CPO(共封装光学)和 OIO(光互联)等新技术,来解决互联瓶颈并提升大规模集群的扩展能力。


从系统整体优化的广度和深度来看,Nvidia 目前的集群性能提升速度依然显著高于 Google。相比之下,Google 的 TPU v7 虽然为了面向未来需求大幅重写了软件栈,处于一种“推倒重来”的状态,但实际表现仍需等待大规模落地后的进一步验证。


Insight 05

Gemini 提高了 Google AI 商业化天花板


目前 Google 正将 Gemini 提升至公司最高战略优先级,希望利用 Google 在 Android 系统、Chrome 浏览器等领域的地位推动 Gemini 的发展。


推广 Gemini 生态工具


为了推广 Gemini 生态,Google 推出了 Antigravity,这个 IDE 允许用户选择使用其他模型(如 Claude 4.5)。有观点猜测,这是 Google 对自身模型的自信,同时也是一种数据策略:如果用户在使用 Gemini 失败后切换至 Claude 4.5 并解决了问题,Google 便能精准捕获 Gemini 的失败案例数据,用于后续的模型迭代。


Google Antigravity 是一个基于 Gemini 3 Pro 的集成开发环境(IDE),支持多个 agent 独立规划、执行并验证代码任务。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


Gemini 还在上个月开放了 Chrome 浏览器插件功能,用户可以通过浏览器右上角按钮直接访问 Gemini 大模型,初期推广范围有限,但最近进一步放宽了权限。


Gemini in Chrome 是 Google 在 2025 年 5 月 20 日推出的一项功能,让用户可以直接在 Chrome 浏览器中通过右上角的 Gemini 图标访问 Gemini,来理解网页内容、跨标签总结信息等。


同时,Google 还针对学生群体推出了极有力度的优惠,有观点认为这一战略类似为当年 Gmail 通过免费存储空间抢占市场的做法。


Google 在 2025 年 4 月 17 日宣布,为美国大学生推出 Google One AI Premium 计划免费优惠,学生可以免费使用 Gemini Advanced(含 Gemini 2.5 Pro 等功能)以及 2 TB 云存储,一直到 2026 年春季。


还有观点指出,Google 将最强模型能力向大众免费开放(虽然存在一定的使用限制),尤其是在 coding 和前端生成领域。这种做法带来了明显的破圈效应,类似当年的 DeepSeek 把 Reasoning 能力带到大众面前。


提升 Gemini DAU


从 Web 端来看,ChatGPT 和 Claude 在美国市场的用户心智已经非常稳固,Google 很难单纯通过网页版 Gemini 实现逆袭。但在移动 App 端,情况完全不同。


Google 能够将大模型的智能高效蒸馏至 10B-20B 参数量级的小模型中,使模型在保持高智商的同时适应端侧运行。而这种将云端智能低成本地迁移至端侧的能力,正是支撑 AI mode 或者 AI Overview 达到 10 亿级 DAU 的关键。


因此有观点猜测,如果未来 Google 将 Android 设备上的 Google Assistant 逐步升级为 Gemini,那么 Gemini 可以瞬间触达海量用户。那么,未来 Google Assistant 流量都将转化为 Gemini 的流量,这使得 Gemini 在 App 端的 DAU 有望快速维持高速增长,甚至追平其他玩家。


此外,地缘优势也是 Google 的机会所在。ChatGPT 的统治力主要集中在北美市场,而在欧洲等非美市场,用户对 AI 产品的忠诚度尚未固化,并没有形成“非 GPT 不用”的绝对心智,这为 Gemini 提供了巨大的渗透空间。


相比广告,Google 更看中用户体验


有观点表示,尽管 ChatGPT 目前拥有约 2000 万的订阅用户,但在商业化扩张上仍面临明显的天花板。在北美市场,愿意每月支付 20 美元甚至更高费用的高价值用户数量是有限的,单纯依靠订阅制很难维持早期那样的指数级增长。


相比 OpenAI,Google 目前对 Gemini 的商业化变现持更为审慎的态度。Gemini 内部的首要考核指标并非短期的变现率或广告加载率,而是用户满意度。目前 Google 已成功构建了大规模的“模型评测模型”飞轮,不再依赖低效的人工评估,而是通过十几个维度的自动化指标,来实时量化模型表现并对齐人类偏好。这种“体验优先”的策略也表明,Google 更看重长期的用户留存与生态健康,而非急于在搜索结果中强行插入广告破坏用户体验。


未来,如果 OpenAI 激进地开启广告业务,无疑会在叙事上对 Google 构成挑战,并切分一部分搜索流量。但有观点认为,商业化的核心不仅在于流量,更在于全链路的转化能力。在广告归因(Attribution)、PMax(效果最大化广告)以及庞大的广告主生态上,Google 拥有深厚的护城河,而且 Google 已经将 AI 深度植入到了从内容生成端到效果归因端的每一个环节,这种打通了生成与归因的闭环商业化能力,是 OpenAI 在短期内难以通过单纯开放广告位来撼动的优势。


此外,在最近几个季度,Meta 和腾讯的广告收入增长较快,约在 20% 左右,而字节的广告增长却只维持在个位数。有观点猜测,Meta 和腾讯这两家公司此前在推荐算法方面与字节存在差距,在引入大模型相关技术后,可能补齐了短板,从而带来广告效果的明显改善。相比之下,字节已将推荐算法的潜力挖掘得较为充分,因此在这一轮大模型技术迭代中,边际提升可能相对有限。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


Data source: Company financial reports and public news; analysis powered by Gemini 3 Pro.


目前从财报表现来看,Meta 和腾讯的广告增长尚未出现明显回落,但未来能否继续保持仍需要观察。但市场对 Meta 也存在疑虑:相比于 Google 和 Amazon 拥有云业务来分摊 AI 算力成本,Meta 作为纯应用公司,巨额的 Capex 是否能通过广告效率的提升来实现足够的投资回报(ROI)?


Insight 06

Chat 之后,什么是 AI Native 的产品形态?


Google 在 Gemini 3 中引入了一个新功能:Generative UI(GenUI),这不仅是简单功能叠加,而是对 Web 交互形态的重塑:AI 不再只返回静态网页链接、文本总结或标准卡片,而是能够根据用户意图实时生成可交互、定制化的小程序或界面。这意味着 GenUI 让用户不仅可以浏览内容,还能与界面进行深度互动。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


目前该功能主要存在于 AI Mode 或特定的 Demo 演示中,许多用户表示在普通对话中难以触发,有观点猜测,这可能与这个功能的效果目前还不稳定有关。


基于目前的 demo 来看,GenUI 的使用场景包括:


• 在物理仿真场景下,当用户询问“三体运动是怎么回事”时,Gemini 不再是抛出一堆物理公式,而是直接生成了一个模拟三体运动的脚本和小程序,允许用户在生成的界面中调整参数,实时观察三个天体的轨道变化。


• 在金融决策场景中,针对“情景分析(Scenario Analysis)”的需求,Gemini 3 能从传统 Chatbot 的静态结论升级为生成可交互的表格。用户可以手动修改表格中的假设数据(如利率、增长率),表格会自动运行敏感性分析并更新结果。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas

Gemini 3 提供了一个生成式软件界面来深入探讨三体问题


有观点认为,完美的 GenUI 需要有三个信息:Data(数据)、User Intention(用户意图)以及 User Preference(用户偏好)。而演进路径则可能需要经历三个阶段:


1、单次查询 query 的展示(类似目前的搜索结果增强);


2、静态内容的结构化生成(例如基于相同的 Markdown 底稿生成不同 UI 的精美 PPT);


3、具备深度交互能力的“即时软件”。


从底层逻辑来看,GenUI 本质上是 Web 的延伸,它让 AI 拥有了生成 HTML/JS 并即时渲染的能力。这一变革也引发了对未来 App 形态的思考:未来的应用可能不再是预定义的、固化的 App,而是由数据实时生长出来、随情境不断变化的动态界面形态,也就是说,在未来,操作系统可能只需要提供底层数据接口,上层的 UI 将完全由 AI 根据用户需求实时绘制。


在今年 10 月 6 日的 DevDay 上,OpenAI 也展示了类似能力:展示了让第三方应用(如 HubSpot、报税工具、房产中介应用等)的 UI 直接嵌入到 ChatGPT 对话中的能力,也就是说 OpenAI 选择由合作伙伴自己构建 UI,因为他们最懂自身业务,专业性强,也拥有数据,更能设计符合业务需求的交互界面,因此 Generative UI 最终会走向怎样的应用形态,两种模式未来会如何演化,仍值得进一步讨论。


OpenAI 在 DevDay 上推出了 Apps SDK,该功能允许开发者将第三方应用(比如 Canva、Spotify、Zillow 等)以互动界面嵌入到 ChatGPT 对话中。


深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas


文章来自于“海外独角兽”,作者 “Best Ideas 社群”。

关键词: AI新闻 , Gemini 3 , 谷歌AI , AI大厂
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0