
推理能力翻倍,价格不变,这一次 Google 是真的想重新定义 AI 竞争的规则。
马年「AI 春运」赛程过半,OpenAI、Anthropic、阿里等玩家相继拿出新活儿,现在,Google 也正式加入!
当地时间 2 月 19 日,Google 曝光 Gemini 3.1 Pro 最新模型。
这一次,Google 没有玩什么花哨的概念,直接用数据说话。
在 ARC-AGI-2 这个公认的推理基准测试中,Gemini 3.1 Pro 拿到了 77.1% 的分数。什么概念?它的前辈 Gemini 3 Pro 只有 31.1%,就连专门用来「深度思考」的 Gemini 3 Deep Think 也只有 45.1%。
77.1% 对比 31.1%,这不是渐进式改进,这是推理能力的翻倍突破。
更让人意外的是,Google 选择了一个近乎「反商业」的策略:价格不涨。Gemini 3.1 Pro 保持了与 Gemini 3 Pro 完全相同的定价结构——相当于给所有 API 用户免费升级了推理能力。
JetBrains 的 AI 总监 Vladislav Tankov 在测试后直言:相比之前版本有 15% 的质量改进,「更强、更快……且更高效,需要的输出 tokens 更少」。
这种「暴力美学」式的升级,让我想起了早期 Google 的做派——用技术说话,用实力碾压。
这次,Google 能凭借 Gemini 3.1 Pro,继续惊艳世界吗?
「.1」版本号的野心
细心的人可能注意到,这是 Google 第一次使用「.1」这样的增量版本号。
在软件行业,「.1」通常意味着重要的功能更新,但不是颠覆性的架构重构。Google 选择 3.1 而不是 4.0,其实在向市场传递一个信号:
我们还有更大的招数没出。

Gemini 3.1 Pro 与自家和友商模型数据对比|图片来源:9to5Google
从企业客户的反馈来看,这个「.1」的威力确实不小。
Databricks 的 CTO 报告说,新模型在 OfficeQA 基准上取得了「同类最佳的结果」。Cartwheel 的联合创始人更是直接指出,模型对 3D 变换的理解有了「显著提升」,解决了 3D 动画管道中长期存在的旋转顺序问题。
Box AI 的企业评估数据更加直观:在医疗和生命科学领域,准确性从 47% 跃升到 67%;在法律任务中,准确性从 57% 提升到 74%。
这些不是实验室里的跑分游戏,而是真实商业场景中的能力验证。
AI 竞争进入「推理纪元」
如果说过去一年的 AI 竞争是「谁更聪明」的比拼,那么 Gemini 3.1 Pro 的发布策略,可能正在把游戏规则拉向「谁更划算」。
在大多数基准测试中,Gemini 3.1 Pro 都领先于 Anthropic 的 Opus 4.6 和 OpenAI 的 GPT-5.2,但价格却是 Opus 4.6 的一半。这种性价比优势,对于大量使用 AI API 的企业客户来说,吸引力是致命的。
一位开发者在社区分享了一个令人印象深刻的案例:他用单个提示让 Gemini 3.1 Pro 构建了一个功能完整的 Windows 11 风格网络操作系统,包括文本编辑器、Python 终端、代码编辑器、文件管理器、绘画应用和可玩游戏。
这种「一个提示解决复杂问题」的能力,正是推理模型的核心价值所在。
当然,Gemini 3.1 Pro 也不是完美无缺。在 GDPval-AA 这个衡量真实世界经济任务的基准测试中,它的得分为 1317 分,明显低于 Anthropic Sonnet 4.6 的 1633 分。这提醒我们,即使是最先进的 AI 模型,在处理复杂现实问题时仍有局限性。

Gemini 3.1 Pro 在设计上也更有「品味」了|图片来源:Google
VentureBeat 的分析师一针见血地指出:「Google 加倍投入核心推理和 ARC-AGI-2 等专业基准,表明 AI 竞赛的下一阶段,将由能够思考问题的模型赢得,而不仅仅是预测下一个词。」
这句话道出了当前 AI 竞争的本质变化。
过去两年,我们见证了 ChatGPT 从「会聊天的 AI」进化为「会推理的 AI」,见证了 Claude 从「安全的助手」变成「深度思考的伙伴」。
现在,Google 用 Gemini 3.1 Pro 告诉市场:推理能力才,是 AI 模型的核心护城河。
从技术角度看,Gemini 3.1 Pro 与 Google 的新型代理开发平台 Antigravity 深度集成,开发者可以切换不同的「推理预算」,在速度和准确性之间找到平衡。这种灵活性,可能是未来 AI 应用开发的新范式。
从商业角度看,Google 选择「性能翻倍、价格不变」的策略,实际上是在用规模经济对抗技术溢价。这背后的逻辑很简单:我有足够的资源和效率优势,可以用更低的成本提供更好的服务。
这场 AI 军备竞赛,正在从「技术炫技」回归到「商业本质」。
Gemini 3.1 Pro 的发布,让我想起了那个曾经「不作恶」的 Google——用技术改变世界,用创新降低门槛。虽然这家公司在过去几年经历了不少争议,但在 AI 这个关键战场上,它似乎正在找回自己最擅长的节奏。
当然,OpenAI 和 Anthropic 不会坐以待毙。这场推理能力的军备竞赛才刚刚开始。
文章来自于微信公众号 "极客公园",作者 "极客公园"