字节Seed数学新模型,SOTA了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
字节Seed数学新模型,SOTA了
6686点击    2025-08-04 20:45

不仅能达IMO银牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型o4-mini!


字节发布全新复杂数学解决模型——Seed-Prover


字节Seed数学新模型,SOTA了


该模型全面超越了谷歌的AlphaGeometry2,并在MiniF2F数据集上实现了惊人的100%正确率。


不仅如此,Seed-Prover还展现了其卓越的泛化能力:


  • 成功解决了78.1%的历年IMO难题


  • 普特南数学竞赛中的成绩达到其他主流模型的4倍;


  • 在MiniCTX-2数据集上,以81.8%的高正确率远超基准模型o4-mini。


字节Seed数学新模型,SOTA了


对此,前谷歌成员Deedy Das惊叹道:字节真不愧是唯一一家专为IMO发表完整论文的AI实验室!


字节Seed数学新模型,SOTA了


Seed-Prover模型框架


Seed-Prover是一个专注于使用Lean 4进行形式化推理的大型语言模型。


Lean 4允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。


相较于先前的研究,Seed-Prover最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。


简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 “lemma” 关键字引入 ,然后再使用 “theorem” 通过应用生成的引理来生成主要证明。


字节Seed数学新模型,SOTA了


这种方法具有几个关键优势:


1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。


2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。


3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。


为了实现Seed-Prover的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。


根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。


字节Seed数学新模型,SOTA了


由于Lean在几何支持方面存在不足,Seed-Prover集成了一个专用的几何推理引擎Seed-Geometry


它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。


此外,Seed-Geometry还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。


基于上述工作,Seed-Geometry建立了一个包含2.3亿个需要辅助构造的独特几何问题的库。


这是通过利用过去20多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。


基于这一专属几何数据训练得到的Seed模型,成为了一个高效的神经-符号混合几何证明器


它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。


达IMO银牌水准


研究团队使用Seed-Prover与Seed-Geometry参加了IMO 2025,完整解决了6道题中的4道以及一道题的部分证明,在比赛规定时间内达到了IMO银牌水准。


根据IMO-AG-50的统计方法,在2000年至2024年IMO几何问题中,Seed-Geometry (SG) 解决了43道题,比AlphaGeometry 2 (AG2) 多解决1道。


字节Seed数学新模型,SOTA了


对于2000年至2022年难度大的多的IMO候选题中的几何题,AlphaGeometry 2解决了19道,而Seed-Geometry解决了22道。


字节Seed数学新模型,SOTA了


此外,值得注意的是,Seed-Geometry还在2秒内解出了IMO 2025第2题。


除此之外,对于MiniF2F测试集,Seed-Prover达到了几乎百分百的正确率。


字节Seed数学新模型,SOTA了


参考链接:


[1]https://x.com/deedydas/status/1951829325839499753


[2]https://www.alphaxiv.org/pdf/2507.23726


文章来自于微信公众号“量子位”,作者是“时令”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费