近日,由普林斯顿大学牵头,联合清华大学、北京大学、上海交通大学、斯坦福大学,以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。
该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B;而 8B 小尺寸模型在特定基准上,性能表现与 DeepSeek-Prover-V2-671B 持平,展示了其在效率和能力上的新突破。
MiniF2F 性能新高:其 32B 旗舰模型在 MiniF2F 测试中,Pass@32 (每道测试题目尝试 32 次;pass 数越小,计算开销越小)的正确率相较于之前的 SOTA 模型 DeepSeek-Prover-V2-671B 提升了 8.0%。
小而强:8B 参数模型的性能表现与之前 671B 参数的 SOTA 模型持平。
登顶 PutnamBench:在极具挑战性的 PutnamBench (普特南数学竞赛基准)上,该模型排名第一。
Goedel-Prover-V2 立足于形式化推理,即以精确、无歧义的形式语言(Formal Language)来进行数学推理,完整数学定理证明,整个推理和证明过程可被机器自动验证。目前,最主流的形式化证明语言 Lean 已经被广泛的数学家群体接受。
Goedel-Prover-V2 的开发流程基于标准的专家迭代(expert iteration)与强化学习,并引入了三项关键创新:
基于这些方法,该项目的较小模型 Goedel-Prover-V2-8B 在 MiniF2F 测试集上(Pass@32)达到了 83.3% 的通过率,甚至超越此前模型参数量超过 80 倍的 SOTA 模型 DeepSeek-Prover-V2-671B 的性能。其旗舰模型 Goedel-Prover-V2-32B 更是将此项指标提升至 88.1% (标准模式)和 90.4% (自我修正模式),大幅超越了所有先前的 SOTA 模型。
在 PutnamBench 上,开启自我修正模式的旗舰模型仅使用 Pass@64 就解决了 64 个问题,用远远更小的计算开销超过了 DeepSeek-Prover-V2-671B 在 Pass@1024 下解决 47 个问题的记录。
基准测试结果
自我修正模式:模型先生成初始证明,再利用 Lean 编译器的反馈进行两轮自我修正。这一过程仍然保持了高效:总的输出长度(包括初始证明和两轮修正)仅仅从标准的 32K tokens 略微增加到 40K tokens。
图 1: 在 MiniF2F、PutnamBench、以及新发布的 MathOlympiadBench (包含 360 道数学奥林匹克竞赛级别题目)上的 Pass@32 性能对比。横轴为不同模型表现,纵轴为模型性能(解决题目的百分比或者个数)
上图展示了 Goedel-Prover-V2 在 MiniF2F、PutnamBench 和 MathOlympiadBench 三个基准测试中的性能。所有数据在 Pass@32 下测得:
PutnamBench 排行榜
下表为 PutnamBench 的最新排名。Goedel-Prover-V2-32B 在相对更少的计算开销(pass 数)下取得了领先成绩。
表 1: PutnamBench 排行榜。
推理时的计算扩展性
推理时的计算扩展性曲线显示,在不同的推理采样预算下,Goedel-Prover-V2-32B 模型的性能均稳定超过了之前的同类模型。
图 2: 在不同采样预算下,模型在 MiniF2F 测试集上的性能表现。横轴为 pass 数(采样预算),纵轴为解决题目的百分比
Goedel-Prover-V2 的性能主要基于以下四种核心技术:
为了促进相关领域的研究,团队已公开发布了 Goedel-Prover-V2 模型及全新的 MathOlympiadBench 基准。
模型下载
数据集下载
MathOlympiadBench 是一个收录了奥林匹克级别数学竞赛问题形式化版本的数据集,来源包括 Compfiles 和 IMOSLLean4 等代码库。数据集共包含 360 个问题,覆盖了 IMO (International Math Olympiad,国际数学奥林匹克竞赛)、IMO 候选短名单及其他区域性竞赛题。
研究团队表示,发布此模型旨在支持开源社区的研究,包括为 IMO 等数学竞赛做准备的相关项目。包含完整技术细节的论文将在未来几周内发布。
项目骨干:
林勇(Yong Lin),普林斯顿大学博士后,与金驰、陈丹琦、Sanjeev Arora 教授合作,研究方向为大模型的形式化数学推理与后训练。相关成果曾获 NAACL 杰出论文奖,入选 2023 年苹果 AI 学者。
个人主页:https://linyongver.github.io/Website/
唐山茖(Shange Tang),普林斯顿大学博士生,导师是金驰和范剑青教授。他的研究领域包括大模型的形式化数学推理、分布外泛化等。
个人主页:https://shangetang.github.io/
项目负责人:
金驰(Chi Jin),普林斯顿大学电子与计算机工程系教授。他的研究专注于机器学习的决策制定,致力于开发具备复杂决策与高级推理能力的智能体。其团队在强化学习、博弈论及最优化等领域奠定了坚实的理论基础。近期,他们正积极将研究拓展至大语言模型(LLM),重点提升其推理能力。金驰教授曾荣获多项重要荣誉,如斯隆研究学者奖(Sloan Research Fellowship)、美国国家科学基金会 CAREER 奖(NSF CAREER Award)等。
个人主页:https://sites.google.com/view/cjin/home
文章来自于微信公众号“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner