IMO金牌已经“过时”了。
基于Gemini 3 Deep Think的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。
在公布的完整成绩单中,10道题Aletheia全程0人工参与解出6道,其中5题专家全票通过,还有一题拿到了5/7的通过率。

FirstProof是由来自哈佛、斯坦福等名校的11位顶尖数学家联手打造的一套专门验证AI独立科研能力的数学题集。
10道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿非常有意思,推荐关注。

不止谷歌,OpenAI内部模型也考了这套题,基本正确的有5题。
但是!谷歌全程AI自主,OpenAI在考试过程中动用了人工来挑最佳答案(doge)。
FirstProof由来自哈佛、斯坦福等名校的11位顶尖数学家出题。
和IMO这类竞赛题不同,最新挑战赛的10道题不是标准化的竞赛题,而是直接扒自数学家们真实遇到的难题,之前从没任何公开发布过。
而且,答案都是在AI考完之后才放出来的,这样就切断了AI通过背答案套模板的可能。
先看成绩单,OpenAI冲刺七天,在5个问题上基本正确,分别是:
其实,初期OpenAI公布的成绩单有6题,结果第2题(非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成5道。

不过,团队透露在在测试过程中人工协调了该模型与ChatGPT之间的交流,用于验证、格式整理与风格调整。
有个别问题最终呈现的是人工挑选的最佳结果。
谷歌Aletheia这边,6道题全都自主拿下,包括OpenAI被质疑的第2题。
在专家评审中,在2、5、7、9、10题获专家全票通过。
其中,第7题是公认的本套题集中难度最高的一题,是一个公开未解决的问题,直至本次FirstProof挑战赛发布标准答案时,才由Cappell–Weinberger–Yan团队完成首次解决。
第8题虽然没全票通过,但也拿到了5/7的高分。
对应的题目分别是:
要从解题数量和模式来看的话,谷歌Aletheia不仅解题数多1个,相比之下还靠AI全程自主略胜一筹。
接下来,咱继续看看Aletheia到底是个什么打法。
首先,底层模型就是之前拿了IMO金牌的Gemini 3 Deep Think。
Aletheia搭载了AB两个版本的Gemini 3 Deep Think模型,来了个最优二选一。(A是2026年2月的最新版,B是2026年1月的版本。)
然后是从读题到交卷的真·0人工干预解题流程。
Aletheia能直接读取不经过人类格式化的原始问题,自主推理后输出答案。
再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式,最终直接吐出LaTeX形式答案。
而且,剩下的没解出来的4道题倒也不是错了,而是直接“拒答”。
这是由于由于含智能筛选机制,当Aletheia无法生成可靠的证明时,模型不会胡编乱造生成无效答案,而是直接输出“无解决方案”的回复。

Aletheia还能动态调整推理资源的分配,比如遇到超难的第7题,它能自动投入远超常规题的推理算力,通过Generator子agent多轮生成+Verifier子agent严格校验,最终攻克。
而简单题则合理控制算力,避免资源浪费。
比如面对第10题这种张量分解的数值型题时,Aletheia给出了矩阵-向量成绩高效计算的方法。
不直接生成超大维度的Khatri-Rao乘积矩阵Z,而是通过动态生成所需行的方式,将每轮迭代的复杂度压缩到O(qr+n²r),比传统线性solver的O(n³r³)快几个量级。
这波谷歌略胜一筹,下一轮问题集3月中旬就要来了,难度只会更高,咱拭目以待~
参考链接:
[1]https://x.com/lmthang/status/2021644542852968952
[2]https://mathstodon.xyz/@tao/116022211452443707
[3]https://x.com/polynoamial/status/2022527227049742779
文章来自于微信公众号 "量子位",作者 "量子位"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI