谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA
8887点击    2026-02-12 10:41

今天,谷歌DeepMind「AI数学家」Aletheia彻底杀疯了,攻克数学猜想,独立写论文。更令人震惊的是,拿下金牌的Gemini一举横扫18大核心科研难题。


下一个诺奖得主,Gemini提前预定了!


谷歌DeepMind再次向全球科研圈扔出炸弹,一口气放出两篇重磅论文——


Gemini Deep Think成为「科研合伙人」,连破数学、物理和计算机科学领域研究级难题。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


以前,AI可以拿下IMO、ICPC国际大赛金牌,已经很牛了....


这一次,Gemini彻底开挂,真正搞起了科研!


谷歌打造了一款基于Gemini「AI数学家」,代号Aletheia。它在博士级难题上,取得了多项科研里程碑。


其中包括,独立撰写发表学术几何论文,还对「Erdős猜想」数据库中700个开放问题,完成系统性评估。


在IMO-ProofBench基准测试中,Aletheia一骑绝尘,拿下91.9%的成绩刷爆SOTA


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


更具颠覆性的,它具备了人类最核心的技能:自我纠错,还会主动承认自身无法解决的问题。


所谓的千禧年大奖难题,或许离逐一破解的那天也不远了。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


不仅如此,在物理学和计算机科学,Gemini Deep Think联手专家,攻克了18个长期停滞的研究难题。


涵盖了终结十年子模优化猜想、突破离散算法瓶颈、机器学习与组合优化、信息论与经济学等,斐然的成绩足以载入史册。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


此时此刻,人类的科研工作流正在酝酿着一场颠覆性的变革。


Gemini加速进化正以一种近乎「降维打击」的方式,在多个科研领域暴力破局。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


谷歌「AI数学家」Aletheia重磅出世

干翻博士级难题


2025年夏天,Gemini Deep Think(高级版)首次拿下了IMO金牌,紧接着,在ICPC大赛中一举夺冠。


如今,Gemini彻底跨越了竞赛门槛,正式攻入人类智慧的「深水区」。


与IMO级的竞赛难度不同,研究级数学问题需要,从浩如烟海的文献中调用「高级技术」。


虽然「基础模型」(FM)知识渊博,但缺少专业数据,难免在处理高级学科时往往会理解不到位,甚至产生「幻觉」。


为此,谷歌DeepMind内部构建了一个数学研究AI智能体——Aletheia,背靠强大的Gemini Deep Think。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf


在古希腊语中,Aletheia代表着「真理」。


它做到了在自然语言中「端到端」迭代生成、验证和修改解决方案。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


具体来说,Aletheia自带一个「自然语言验证器」,能挑出候选方案中的毛病,并实现「生成-修改」的迭代过程。


最关键的是,它能承认自己解不出来,这一特性大大提高了研究人员的效率。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

Aletheia概览:这是一个由Deep Think驱动的数学研究AI智能体,能够针对研究级数学问题进行迭代式的生成、验证和修正


总言之,驱动Aletheia的三大核心技术支柱是:


  • Gemini Deep Think高级版:专门用来死磕那些极难的推理题;


  • 新颖的推理时Scaling Law:它的能力跨度极大,上能搞定奥数级难题,下能应付博士级的专业练习;


  • 强大的工具调用能力:深度集成Google搜索和网页浏览,以此攻克数学研究中老大难问题, 瞎编参考文献、计算不准的情况几乎不存在。


自2025年7月达到IMO金牌水准以来,Gemini Deep Think进步谓之神速。


随着推理时计算量(inference-time compute)的增加,它在IMO-ProofBench高级测试中的得分高达90%。


谷歌DeepMind证明了,即便从奥赛级别跨越到博士级练习题(根据内部FutureMath Basic基准),Scaling Law依然有效


值得注意的是,Aletheia即便用更少推理算力,也能实现更高的推理质量。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

截至2026年1月,Deep Think的最新进阶版在奥赛级题目上的表现已大幅超越IMO金牌版本(2025年7月)。推理时的Scaling Law同样适用于博士级练习题。Aletheia在推理质量上实现了进一步的飞跃,且推理时的计算量更低。所有结果均由人类专家评分


首批6篇论文,AI手搓一篇,3篇已发表


在研究级数学的实战中,Aletheia的实力可不是闹着玩的,已取得了许多令人瞩目的「自主突破」。


在Aletheia完成的首批六篇论文中,一共包括以下几类——


  • 独立完成,0人类


论文「Eigenweights for arithmetic Hirzebruch Proportionality」完全由Aletheia生成,没有任何人工干预。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


它计算了算术几何中被称为「特征权重」(eigenweights)的某些结构常数。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2601.23245


  • 人类与AI协作


论文「Lower bounds for multivariate independence polynomials and their generalisations」是由人类与Aletheia协作完成,共同证明了相互作用粒子系统(称为独立集)的界限。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2602.02450


  • 大规模半自主评估,攻克Erdős猜想难题


论文「Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems」针对 Bloom的「Erdős猜想」数据库中的700个开放问题进行了评估,并自主解决了其中列出的四个未解之谜。


在Erdős-1051问题上,模型给出了自主解答,并推动了另一篇研究「Irrationality of rapidly converging series: a problem of Erdős and Graham」中报告的推广性成果。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2601.22401


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2601.21442


此外,Aletheia还在如下另外两篇论文中,贡献了中间命题。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2601.18557


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2601.23229


值得一提的是,之前也有Gemini进行研究级数学探索的工作,但在合作规模和解决问题的数量上都相对较小。


此外,谷歌DeepMind还建立了一个分类法,根据重要性和AI贡献程度对「AI辅助数学研究」进行分级——


下表中,已被列为第2级(可发表质量)的成果已提交给知名期刊


目前,谷歌尚未通过Gemini获得任何第3级(重大进展)或第4级(里程碑式突破)的成果。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

本研究涵盖的所有AI辅助数学成果的分类表。表中列为第2级的成果已投稿发表


终结十年猜想,攻克18大研究难题


除了在数学方面大展身手,Gemini Deep Think在计算机科学和物理学领域,也表现出了巨大的潜力。


论文「Accelerating Scientific Research with Gemini: Case Studies and Common Techniques」建立在类似的智能体推理思路之上,并总结出了高效合作的「秘籍」,特别是「顾问」(Advisor)模式:


即人类通过迭代的「直觉验证」(Vibe-Proving)循环来引导 AI,以验证直觉并完善证明。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA

论文地址:https://arxiv.org/abs/2602.03837


此外,谷歌还详细介绍了一些战术技巧,比如「平衡提示词」(balanced prompting)。


——要求AI同时尝试证明或反驳以防止确认偏误,以及代码辅助验证。


这些方法,结合模型通过深层结构连接跨越不同科学领域的能力,正在改变理论研究的开展方式。


这项工作,是建立在成功部署Gemini Deep Think进阶版协助审查STOC’26会议CS理论论文的基础之上的。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


AI推理流程示意图:展示了网络层如何对解题空间进行广泛探索,然后收敛为结构化的推理,并最终通过自动化验证与人工审核进行确认


通过与专家合作攻克18个研究难题,Gemini Deep Think进阶版帮助打破了算法、机器学习、组合优化、信息论以及经济学领域长期存在的瓶颈。


ICLR 2026已录用


论文「Accelerating Scientific Research with Gemini: Case Studies and Common Techniques」中的亮点包括:


  • 跨越数学边界解决网络谜题


像「最大割(Max-Cut)」(高效分割网络)和「施泰纳树(Steiner Tree)」(连接高维点)这类经典计算机科学问题的进展一度停滞。


Gemini通过打破「思维定势」破解了这两个僵局。


它从完全不相关的连续数学分支中搬来了高深工具——比如Kirszbraun定理、测度论和Stone-Weierstrass定理——成功解决了这些离散算法谜题。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


  • 终结在线子模优化领域十年的猜想


2015年的一篇理论论文为数据流提出了一个看似显而易见的规则:复制一个新到达的项目永远比简单地移动原始项目价值低。专家们花了十年时间试图证明这一点。


Gemini设计了一个极其刁钻的「三项目组合反例」,严格证明了这一长期以来的人类直觉是错的。


  • 机器学习优化


训练AI过滤噪声通常需要工程师手动调整一个数学上的「惩罚项」。


研究人员发明了一种能自动调整的新技术,但无法从数学上解释为什么有效。


Gemini分析了方程并证明了该方法的成功机理:它在运行过程中秘密生成了自己的「自适应惩罚」。


  • 升级AI时代的经济理论


最近一个关于拍卖AI生成Token的「显示原理(Revelation Principle)」在数学上仅在投标被限制为有理数时才成立。


一旦将范围扩展到连续的实数,原始证明就失效了。Gemini利用先进的拓扑学和序理论扩展了该定理,使其能适应现实世界中连续的拍卖动态。


  • 宇宙弦物理学


计算来自宇宙弦的引力辐射需要找到包含「奇点」的棘手积分的解析解。


Gemini利用「盖根鲍尔多项式」(Gegenbauer polynomials)找到了一个新颖的解法。这自然地吸收了奇点,将无限级数坍缩成了一个封闭形式的有限和。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


这些成果横跨了从信息与复杂性理论到密码学和机制设计的各个领域,展示了AI正如何从根本上改变研究工作。


考虑到计算机科学领域那种流动性强、以会议为导向的发表机制,我们按学术轨迹而非僵化的分类法来描述这些成果。


以上大约一半的成果瞄准了顶级会议,其中一篇被ICLR ’26录用,剩下的大部分将在未来在期刊投稿。


无论是通过识别错误,还是反驳猜想来纠正领域方向,这些成果都凸显了AI作为高水平科学协作者的价值。


Gemini重塑科研,人类「倍增器」来了


基于谷歌此前的突破,这项工作表明,通用的基础模型,联动智能体推理工作流,可以成为强大的科学伙伴。


在数学家、物理学家和计算机科学家等专家的指导下,Gemini Deep Think模式正在那些以复杂数学、逻辑和推理为核心的领域证明其实用性。


谷歌AI连发6篇数学论文!Gemini攻入博士级科研,91.9%刷爆SOTA


我们正在见证科学工作流的根本性转变。


随着Gemini的进化,它正在成为人类智慧的「倍增器」,负责处理知识检索和严格验证等工作,让科学家能够专注于概念的深度和创新的方向。


无论是完善证明、寻找反例,还是连接看似不相关的领域,AI正在成为科学进步新篇章中不可或缺的协作者。


参考资料:

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/  

https://mathstodon.xyz/@tao/116053101218408010


文章来自于“新智元”,作者 “桃子 好困”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0