清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它
9550点击    2026-02-13 10:32

猝不及防,谷歌DeepMind深夜又放大招了!


今天,Gemini 3 Deep Think重磅升级,几乎刷爆全领域的SOTA,标志着AI推理能力进入了全新维度。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


离职Anthropic入职谷歌的华人学者姚顺宇参与了Gemini 3 Deep Think


这一次,在科学研究和硬核工程领域,Deep Think堪称一个「最强大脑」


它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图,并直接将其打印出来。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


谷歌VP晒出这个副项目,最终的成品是这样子的。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


新版Deep Think的实力究竟有多恐怖?


在编程界,它刷出了3455 Elo的惊人分数,达到世界冠军级的水准,冲入了Codeforces比赛人类TOP 10!


也就是说,全球只有7人击败了Gemini 3 Deep Think,一年前,最强o3也仅拿下2727 Elo。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


在人类最后考试(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成绩。


甚至,它在一夜之间让最难的ARC-AGI-2基准直接饱和,以84.6%新SOTA一骑绝尘。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


与Gemini 3 Pro相比,Deep Think实现了全方位反超,并将Claude Opus 4.6、GTP-5.2直接踩在了脚下。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


更令人震撼的是,Gemini 3 Deep Think的实战表现。


罗格斯大学数学家Lisa Carbone在研究时,让它审查一篇高深的物理数学论文。


结果,Deep Think竟发现了一个连人类同行评审,都遗漏的细微逻辑漏洞。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


Gemini 3 Deep Think这波史诗级进化,又让某些人睡不着了。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


目前,Google AI Ultra订阅用户即可在Gemini中体验新版Deep Think。同时,首次通过API向部分研究人员、工程师和企业开放。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


实力刷爆SOTA,奥赛金牌大满贯


去年,Deep Think专门版成功解决了推理领域最艰巨的任务,在数学和编程世界锦标赛中夺下金牌。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


就在昨天,谷歌DeeoMind还做了一个预热。


背靠初代Deep Think的「AI数学家」Aletheia可以独立撰写论文,证明了「Erdős猜想」中多个难题。


不仅如此,Deep Think直接推翻了十年猜想,一举攻克18大研究瓶颈。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


而现在,迭代后的Deep Think已在多项高难度的基准测试中刷新SOTA:


  • 人类最后的考试(HLE):设定了新标杆,在不使用工具的情况下准确率达48.4%;


  • ARC-AGI-2:达到了前所未有的84.6%,并获得ARC奖项基金会的验证;


  • 算法竞赛平台Codeforces:Elo评分达到了惊人的3455分;


  • 2025 IMO:达到金牌水平。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


除了数学和算法竞赛,Gemini 3 Deep Think现在在化学和物理等广泛的科学领域也表现优异。


在2025年国际物理奥林匹克和化学奥林匹克的笔试部分,新版Deep Think同样具备了金牌实力。


此外,它在高级理论物理方面也游刃有余,在CMT-Benchmark测试中取得了50.5%的成绩。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


另外,Gemini 3 Deep Think在ARC-AGI-1上,直接顶到头了。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


官方演示中,Gemini 3 Deep Think可以根据论文,为「时空循环视频Transformer」架构创建一个的视化方案。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


Deep Think杀入科研,十倍加速


除了顶尖的性能表现,Deep Think还突破了智能边界,能够解决科学、研究和工程领域的现代难题。


它不仅能帮助科研人员解读复杂数据,还能辅助工程师通过代码对物理系统建模。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


在早期测试中,许多科学家在科研工作流中,显著提升了研究产出质量。


在杜克大学,Wang Lab用Deep Think优化了复杂晶体生长的制造方法,以用于潜在的半导体材料发现。


令人意想不到,Deep Think成功设计出了一种生长大于100 μm薄膜的配方,达到了以前方法难以实现的精确目标。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


谷歌平台与设备部门的研发主管Anupam Pathak表示——


我不是CAD设计师,但有了Deep Think,可以直接将草图变成可3D打印的实物。


它会分析绘图,对复杂形状进行建模,并生成3D打印所需的模型文件,让物理零部件建模加速十倍。


只需发送一张图片、一个提示词,它就能够深入思考,便可以提供几个之前从自己未想过的全新设计方案。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


Deep Think将深厚的科学知识与实用的工程能力相结合,超越了抽象理论,真正开始推动实际应用。


网友惊艳实测,物理模拟太强


在实测中,Gemini 3 Deep Think展现出超强的物理模拟能力。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


它可以模拟光线追踪,在浏览器中就可以实现。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


并且还可以在单个HTML文件中,构建出一个完整的Three.js场景,渲染出博物馆中古典油画难以区分的全3D室内房间。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


Simon Willison用Gemini 3 Deep Think画了一张鹈鹕骑自行车的SVG矢量图,效果非常惊艳。


他表示,这是自己目前见过最棒的一版了。


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


既然在处理那条基础的「生成一张鹈鹕骑自行车的SVG」指令时表现得这么出色,Simon决定加大难度,试个更有挑战性的版本:


生成一张加州褐鹈鹕骑自行车的SVG图像。自行车必须要有辐条,车架形状要准确。鹈鹕必须具备其标志性的大喉囊,且要有清晰的羽毛细节。必须能清楚地看出鹈鹕正在蹬车。图像需要展示加州褐鹈鹕完整的繁殖羽特征。


结果如下:


清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它


这一次,谷歌让AI真正渗透进了科研工作的「最后一公里」:审阅论文、工业设计、实验优化,无所不包。


当AI能够揪出连人类审稿人都忽略的逻辑漏洞时,「辅助工具」这四个字显然已经配不上它了。


如今,压力球抛回给了OpenAI。


面对谷歌这记直击痛点的「深思」回击,奥特曼的下一张王牌,必须足够震撼。


参考资料:


https://x.com/GoogleDeepMind/status/2021981512925585703

https://x.com/GoogleDeepMind/status/2021981510400709092

https://x.com/kimmonismus/status/2021983169478533148


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0