昨天,想必大家都被 Google IO 大会刷屏了。
大家期待已久的 Gemini 3.5 Flash,终于走到台前了。
Google 官方给了它三个关键词:智能、速度、长链路能力。
注意啊,还特意强调了 Gemini 的输出速度比「其他前沿模型」快 4 倍。

这针对性不要太强。。。
发布会后,很快就有人开始把 Gemini 3.5 Flash 拉出来和 GPT 5.5 、 Claude Opus 4.7 做对比。
有人说,模型质量已经接近 GPT 5.5 水平,但成本比 GPT 5.5 更低。
有一说一,由于当年 3.1 Flash 表现确实太降智,我一开始觉得这话有吹的成分在,所以我也赶紧去实测了一下。
其实 Gemini 以前就挺擅长做前端页面,很多开发者用它生成网页、UI 设计,效果一直不错。
从 Gemini 2.5 Pro 开始,Google 就一直在强调它的前端开发能力。
这次我让 Gemini 3.5 和 GPT 5.5 给我设计个人网站的前端页面。
提示词如下:
帮我设计一个 JackCui 个人网站首页,风格参考高端 AI SaaS 官网:暗黑科技感、极简、高级、有强烈视觉聚焦。页面要有黑色宇宙背景、紫蓝霓虹光晕、大标题、明显 CTA 按钮、悬浮卡片、玻璃拟态效果,整体审美接近 Apple、Linear、Framer、Vercel 的混合风格。
GPT 5.5 给的结果:



效果还不错,布局挺有美感的,特别是开屏页面的元素设计,我很喜欢。
Gemini 3.5 Flash 给的效果:



虽然美感上欠缺一点,但它在中文页面上的细节处理出乎意料地干净:标题、导航、CTA、模块说明都挺稳的。没有出现按钮被汉字撑爆、卡片网格挤压错位、行高过窄贴成一坨这种 CJK 老毛病。
以我个人观感来看,还是比较不错的。
接着,我去跑了一下3D模型。
提示词:生成一个皮克斯风格的咖啡杯3D模型,页面可以旋转查看,有丰富的光影细节。
这是GPT 5.5的结果,充分理解了「皮克斯」的拟人化风格,而且还生动地生成了咖啡上的热气。美中不足的是,把手生成的方向非常怪异,浅浅有点翻车。

这是 Gemini 3.5 的结果,粉白配色,很是Q萌。把手没有翻车。

下面,我让两个模型都生成了一个赛马小游戏。
提示词:
请生成一个可运行的 HTML 单文件像素风小游戏。游戏题材:像素赛马 / 街机赛马下注。玩家开局拥有 1000 金币,每局比赛前,玩家需要选择一匹马下注,并输入下注金额。点击“开始比赛”后,4 匹马同时起跑。比赛过程中,马匹速度会随机波动,可能出现:短暂冲刺、体力下降、被其他马反超、最后 20% 距离触发冲刺阶段。
GPT 5.5 生成的小游戏界面丰富,不仅每匹马还有自己的介绍,而且等待区的马匹还会不停闪烁。

这是 Gemini 3.5 的结果,不仅生成了观众席,而且还自主生成了结算页面,略胜 GPT 5.5 一筹。


这轮测下来,我的感觉是:
GPT 5.5 更像是一个审美很强的高级前端设计师,出图高级,页面精致,第一眼很抓人。
Gemini 3.5 Flash 更像是一个产品感更强的前端工程师,虽然视觉没那么惊艳,但它更愿意把场景补完整,把中文排版、交互流程、结果反馈这些落地细节做出来。
如果要做官网首屏,我可能还是更喜欢 GPT 5.5。
但如果要做一个真的能跑、能玩、能本地化、能补齐用户体验的小前端项目,那 Gemini 3.5 Flash 确实更合适。
我制作了一份手写的生物实验室笔记,让两个模型同时解读它的意思,并且推理此次研发所在的场景。
这个 case 也会同时考察模型的多模态能力,比如OCR识别功能是否好用。
这是Gemini 3.5 Flash的结果:


GPT 5.5 的结果如下,由于它的回复比较详细,我这里只放部分:



两个模型都能理解笔记的内容,并且推理出笔记发生的场景,专业术语的识别也没有幻觉。
但是 GPT 5.5 的答案略显啰嗦了,更适合不懂这个行业的人看。Gemini 3.5 Flash 的回答倒是一针见血,简洁明了,我还挺喜欢的。
值得一提的是,GPT 5.5 并未正确识别“郑州大学”的logo。

Gemini 3.5 Flash却识别成功了,这次, Gemini 的多模态确实有所进步。

然后,我让两个模型同时推理并预测下一届世界杯的冠军。
GPT 5.5 仍旧是啰啰嗦嗦一大段,但也给出了一个答案:




还顺带分析了一下巴西没有夺冠的原因,可以说活人感很重了。

这是 Gemini 3.5 的答案:



个人认为,GPT 5.5 的分析更客观、更专业。
大模型现在动不动宣传 100 万、200 万 token 上下文窗口,但实际操作起来却经常是:头尾的内容记得清清楚楚,中段塞进去的东西,什么也记不住。
我决定做一个大海捞针测试,给了两个模型《武林外传》的部分剧本,并且在其中藏了三次异常命令:「月亮把钥匙吞进了冰箱」。
令我失望的是,没有一个模型识别出来。


最后,测了一下两个模型的写作能力。
Gemini 3.5 Flash 的表现竟然出乎意料地好,答案放在了下面。

这是 GPT 5.5 的答案:

题目要求 300 字。Gemini 3.5 Flash 给的故事大概 320 字上下,GPT 5.5 的全文则在 450–500 字之间,超出 50% 左右。遵守约束是考察的标准之一,GPT 这一项直接失分。
另外,题眼是「科幻短文」,GPT 5.5 写的其实是一篇谍战短文,科幻感不强,剧情也有点摸不着头脑。
特别是提示词里规定:男主不能说话, GPT-5.5 就直接给男主挂上了禁止发声的牌子,有种生搬硬套的笨拙感。

综合来看,这一回合 Gemini 3.5 Flash 胜出。
根据官方数据来看,Gemini 3.5 Flash 这次的纸面成绩很亮眼。它最强的地方,主要集中在三类任务。
第一是速度,官方强调 Gemini 3.5 Flash 的输出速度比其他前沿模型快 4 倍,这也是它最容易被感知到的优势。
第二是工具调用,比如 MCP Atlas,Gemini 3.5 Flash 是 83.6%,GPT 5.5 是 75.3%。
第三是多模态理解,比如 MMMU-Pro,Gemini 3.5 Flash 是 83.6%,GPT 5.5 是 81.2%。
除开这三类任务,GPT 5.5 的测试数据仍旧更胜一筹。
比如:
代码执行测试,GPT 5.5 是 78.2%,Gemini 3.5 Flash 是 76.2%。
长上下文信息定位,GPT 5.5 是 94.8%,Gemini 3.5 Flash 是 77.3%。
抽象逻辑推理,GPT 5.5 是 84.6%,Gemini 3.5 Flash 是 72.1%。
我个人觉得,以 Gemini 3.5 Flash 现在这个测评质量,夸一下是完全没问题的。
但也不能因为它快,就直接说它全面超过 GPT 5.5。
毕竟两个模型的能力侧重点不一样。Gemini 3.5 Flash 是一个速度快、工具调用能力强的模型;GPT 5.5 则是一个在复杂推理、长任务和代码质量上更稳的模型。
成本上,Gemini 3.5 Flash 并没有如传闻中便宜。

x上有位网友 Theo 的观点比较有意思:
他认为,Gemini 3.5 Flash 当然快,它的问题是太吃 token 了。
不能只看每百万 token 的标价,因为真实使用时,模型到底要消耗多少 token,才决定最后你要付多少钱。
在 Artificial Analysis 的测试里,GPT-5.5 Medium 用了大约 2200 万 token,成本 1199 美元,得分 57;而 Gemini 3.5 Flash 用了大约 7300 万 token,成本 1522 美元,得分 55。

Theo 的结论是:Gemini 3.5 Flash 看起来便宜,但在某些复杂任务里,总成本未必便宜,性价比也未必压过 GPT-5.5 Medium。
除了 Gemini 3.5 Flash,今年 Google IO 大会还发布了一系列很有趣的东西:
第一,这次 Google 对 Search 的改动非常大。AI Mode 被推到更核心的位置。以后搜索不只是给你十个蓝色链接,而是会根据你的问题,直接生成答案、图片、视频、时间线,甚至还能帮你做计划、生成表格、创建日程。

这件事我还挺期待的。
因为搜索一旦从「信息入口」变成「行动入口」,传统网页的流量逻辑、SEO 逻辑、广告逻辑,都会被重新改写。
第二个就是Google 版的日常 Agent: Gemini Spark。它可以结合 Gmail、Calendar 这些服务做旅行规划、约会安排、信息整理。它的核心优势更多还是建立在 Google 生态上,对我们来说,短期内可能还没那么强的体感。
一方面国内用户本来就不怎么重度依赖 Google 全家桶。另一方面,这类 Agent 也高度依赖权限和生态。

第三个,是视频生成模型 Gemini Omni,它的核心卖点不是单纯「生成一段视频」,而是更强调对视频细节的理解和修改。
比如改某个局部元素、调整画面风格、编辑已有视频内容。
这个方向是对的。
因为接下来视频生成真正要卷的,就是精控。
不过现在 Seedance 2.0 珠玉在前,Gemini Omni 想要一下子打穿这个市场,难度还是挺大的。

第四个,是 Google Antigravity,这是开发者方向的重点。
Google 官方把它叫做 agent-first development platform,说白了,就是不再只是让 AI 帮你补代码,而是让 Agent 帮你计划任务、执行代码。
这个东西我觉得有点像 Google 版的 Codex / Claude Code 路线。
但它的问题也很明显。现在写代码,很多人第一反应是 Claude Code、Cursor、Codex,而不是 Google 的某个产品,Google Antigravity 的改版有点晚了。
Google 这波操作,让我想起当年的微软。
微软可怕的地方,不是它每一次都第一个做出新东西,而是它手里有入口。
PC 时代,它有 Windows;办公时代,它有 Office;开发者生态里,它后来又有了 GitHub 和 VS Code。
所以很多产品一旦被微软塞进自己的体系里,意义就会变得完全不一样。
它不是单独跟你拼一个功能,而是把这个功能变成系统默认的一部分,变成用户每天绕不开的东西。
Google 现在做 AI,其实也是这个逻辑。
单看这些产品,每一个都未必绝对领先。
但它们一旦被放进搜索、Chrome、Gmail、Calendar、YouTube、Android 这些入口里,AI 就不再只是一个你主动打开的聊天框,而是会变成一种默认存在的能力。
所以真正重要的,不只是哪个模型跑分第一,而是谁离用户最近。
谁能出现在用户搜索、写邮件、看视频、写代码、安排日程、打开手机的那一刻,谁就有机会重新定义下一代 AI 产品。
文章来自于"JackCui",作者 "JackCui"。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0