人类56年解不出,谷歌AI一夜连破9道世纪数学难题!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
人类56年解不出,谷歌AI一夜连破9道世纪数学难题!
8392点击    2026-05-25 22:42

数学界这个月,彻底疯了。


前脚OpenAI刚把Erdős 80年猜想推翻,数学家们的惊呼声还没落地。


紧接着,Google DeepMind发布了一个全新AI数学智能体——AlphaProof Nexus


人类56年解不出,谷歌AI一夜连破9道世纪难题!


论文地址:https://arxiv.org/abs/2605.22763v1


它一出手,就干掉了9道悬而未决几十年的Erdős开放问题。其中最古老的那个,悬了整整56年


而且,每道题花费的算力成本,只有几百美元。


更关键的是,这次的证明不可能有错


每一步推理都经过Lean编译器的形式化验证,不存在幻觉空间。编译器通过,证明就是对的。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


值得一提的是,AlphaProof Nexus和2024年拿下IMO银牌的初代AlphaProof完全不同。


初代只有强化学习树搜索,Nexus把大语言模型、AlphaProof和进化算法三合一,直接瞄准了人类数学家啃不动的研究级难题。


AlphaProof Nexus


进化算法+LLM+Lean编译器


这套系统的架构分为四个层级,从简单到复杂。


1. Agent A(基础版)


多个独立的证明子智能体并行工作,每个子智能体与Gemini 3.1 Pro进行多轮对话,通过搜索替换工具修改Lean代码,编译器实时反馈错误信息,子智能体根据反馈迭代修正。


2. Agent B


在A的基础上加入了AlphaProof作为工具。当子智能体在某个子目标上卡住时,可以调用AlphaProof进行强化学习驱动的树搜索,尝试攻克局部难点。


3. Agent C


引入进化算法。多个子智能体不再独立工作,而是共享一个「种群数据库」。每个证明草稿会被LLM评审员打分(用Elo评分系统),高分草稿被优先采样、变异、进化。


4. Agent D(完整版)


集大成者。进化算法 + AlphaProof + Gemini 3.1 Pro协同作战。这是DeepMind用来大规模扫荡Erdős问题的主力武器。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


整个工作流的核心循环非常清晰——


AI提出证明草稿 → Lean编译器验证 → 失败则反馈错误信息 → AI修正 → 再验证 → 循环往复,直到证明完全通过或耗尽算力预算。


Erdős #125为例,它的解题过程是这样的。


首先,子智能体先用思维链推理分析问题结构,然后通过搜索替换修改Lean代码,接着调用AlphaProof处理子目标。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


AlphaProof搞定了6个子目标中的3个,子智能体随即将剩余的「硬骨头」分解为更小的引理,再次调用AlphaProof——这次,全部搞定。


整个过程中,没有任何人类数学家介入。


9道Erdős问题


56年前的悬案一朝告破


DeepMind将完整版Agent D投放到353道已形式化的Erdős问题上。每道题最多允许3000轮迭代。


最终,9道问题被攻克。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


其中含金量最高的几道:


1. Erdős #12(1970年提出)


是否存在一个无限集A,满足「任意三个不同元素a<b,c,都不存在a整除b+c」的性质,同时A在前N个正整数中的密度达到N^(1/2)量级?


人类56年解不出,谷歌AI一夜连破9道世纪难题!


这道题悬置了56年,期间多位数学家取得了部分进展,但始终无法给出完整构造。


AI的解法精妙地结合了中国剩余定理和三项等差数列回避集,通过构建一系列精心设计的「区块」来同时满足密度条件和整除约束。


2. Erdős #125(1996年提出)


在三进制下只用数字0和1的整数集A,加上四进制下只用数字0和1的整数集B,它们的和集A+B的下密度是否为正?


人类56年解不出,谷歌AI一夜连破9道世纪难题!


AI证明了答案是否定的——下密度为零。


证明的核心是一个归纳稀疏化论证,巧妙利用了3^m和4^k的丢番图逼近性质(log4/log3是无理数),通过反复找到两个基数几乎对齐的尺度,让密度以0.99的比率逐步衰减到零。


3. Erdős #138(1981年提出的变体)


van der Waerden数W(k+1) - W(k)是否趋于无穷?


AI给出了一个极其优雅的证明:W(k+1) ≥ W(k) + k。核心思路是贪心染色扩展——在一个没有单色k-AP的2-着色基础上,逐个添加新元素,用反证法说明贪心策略不会失败。


4. Erdős #846


这是一个关于平面点集中共线性质的问题。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


而AI的构造,令人叹为观止。


它把完全图K∞的每条边映射到平面上的一个点,用二次多项式编码坐标,然后利用无穷Ramsey定理完成证明。


目前,所有9道问题的Lean证明代码已开源在GitHub上。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


项目地址:https://github.com/google-deepmind/alphaproof-nexus-results


简单Agent也能解全部9题?!


最出人意料的结论,不是完整版Agent D有多强,而是——


最简单的Agent A,也能解决全部9道问题。


Agent A没有进化算法,没有AlphaProof,只有多个独立的LLM子智能体和Lean编译器的反馈循环。


根据DeepMind团队的对比分析,它在大多数问题上,Agent A和Agent B(加了AlphaProof的版本)的表现在误差范围内几乎相同。


相比之下,Agent D的优势主要体现在最困难的问题上(比如#125和#138),能以2到5倍的成本优势完成证明。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


对此,DeepMind将基础Agent的成功归因于两个因素:LLM自身能力的飙升,以及编译器反馈在锚定LLM推理方面的强大作用。


也就是说,随着基础模型越来越强,复杂的系统工程可能逐渐让位于简单的智能体循环。


今天需要进化算法和AlphaProof协同作战才能高效解决的问题,明天可能一个朴素的LLM+编译器循环就够了。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


具体到成本,最便宜的一道题(#741(ii))中位成本仅5-7美元,最贵的(#152)也不过200-400美元。


但前提是用对了模型——单独运行AlphaProof或使用较小模型(Gemini 3.0 Flash等),9道题一道都解不出来。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


代数几何15年悬案、凸优化新界一并搞定


除了Erdős问题,AlphaProof Nexus还在多个数学分支中取得了实质性突破:


OEIS猜想:系统自动形式化了492个开放猜想,证明了其中44个。为防止形式化错误,系统要求先证明「测试引理」——验证序列前几项与形式化定义一致——才能尝试目标猜想。


代数几何:解决了一个悬置约15年的开放问题——证明了余维数3、类型2的纯O-序列的对数凹性。这个问题此前被认为是该领域最后一个主要未解情况。


凸优化:解决了一个关于锚定梯度下降-上升算法(Anchored GDA)精确收敛速率的开放问题。更妙的是,AI不仅验证了一个固定算法,还在证明过程中自主搜索并发现了一个新的学习率调度参数,从而实现了更强的保证。


图论:证明了Graffiti系统在1996年提出的一个关于生成树叶子数与局部独立集的猜想,形成了一个有趣的闭环——AI证明了另一个AI提出的猜想。


加法组合学:帮助解决了Ben Green著名开放问题列表中的第57题。


量子光学:与Mario Krenn合作,解决了多个关于单色量子图的猜想,对应高维GHZ量子态的构造。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


三路合围,数学前沿全面失守


2026年5月,AI在数学领域的造诣,几乎同时达到了研究级水平。


OpenAI走的是自然语言路线。


通用推理模型直接输出证明,推翻了Erdős 80年单位距离猜想。证明极其精妙,但验证它需要人类顶级专家逐行审查。


菲尔兹奖得主Gowers把未解问题扔给GPT-5.5 Pro,两小时拿到博士论文级成果,全程数学贡献为零。


DeepMind走的是形式化验证路线。


AlphaProof Nexus让AI用Lean语言写证明代码,编译器自动检查每一步推理。任何一步出现逻辑断裂,编译器直接报错,证明被拒绝。


自然语言路线灵活,但可能有幻觉。形式化路线可靠,但目前局限于Lean数学库成熟的领域。


而DeepMind的数学家合作者发现了一个意料之外的收获——


即使智能体无法证明目标定理,它生成的证明尝试也加深了他们对问题的理解。因为草稿是形式化的,专家可以直接聚焦于未解决的子目标,而不需要重新验证整个论证链。


换句话说,AI不只是在解题,它正在改变数学家思考问题的方式。


如今,未来的图景已经浮现:


AI先用自然语言探索证明思路,再用形式化系统逐步固化和验证。


人类数学家的角色,则从「亲手推导」转向「提出问题、审查方向、提炼洞见」。


有人说,我们正目睹数学奇点的早期火花。


人类56年解不出,谷歌AI一夜连破9道世纪难题!


几百美元算力,几十小时运行,56年悬案告破,编译器给出铁证。


保罗·埃尔德什生前留下了1217道数学难题,悬赏后人求解。


他大概从未想过,有一天来领赏的,不是人类。


参考资料:


https://x.com/prz_chojecki/status/2058435083741061359?s=20


https://arxiv.org/abs/2605.22763v1


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md