字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
9426点击    2025-12-26 10:34

字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。


Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。


字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌


这一成绩与7月官方认证的IMO金牌“选手”谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题的部分证明,达到银牌成绩。


同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。


字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌


模型尚未开源,但技术报告已经公开。


值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题率。


即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。


草稿引导的高效形式化证明


具体来看技术报告。Seed Prover 1.5的参数规模与Seed 1.6相同,230B总参数,23B激活。


主要创新有两点:


  • Agentic Prover:一种新的形式化数学推理范式
  • Sketch Model:自然语言到形式语言的翻译器


Agentic Prover


相较于通用模型用自然语言解答数学问题的方式,数学推理专用模型采用的是形式化数学推理,也就是用Lean等形式语言,构建可在公理系统中机械验证的证明,以确保结果更加可靠。


其难点在于,形式化证明比自然语言证明更加困难。根据“De Bruijn factor”经验法则,一行普通的数学推导,通常需要扩展成4到10行复杂的代码。


这要求模型不仅懂数学,还要精通编程和类型论,而这一高门槛导致形式化证明在效率和成功率上一直远落后于自然语言推理。


以往的研究中,形式化证明器通常分为两类:


  • Step-prover:一步一步证明,效率很低;
  • Whole-prover:一次性生成完整证明,但中间一旦出错就会前功尽弃。


Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构:


模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。


  • Mathlib搜索工具:类似于程序员查阅技术文档,模型可以主动检索Lean庞大的数学库 Mathlib,寻找可用的定理和定义,而非依赖不可靠的隐式记忆。


  • Python代码执行:遇到需要计算的部分,模型可以编写并运行Python脚本来辅助验证直觉。


  • 增量式引理验证:模型不再被迫一次性生成整个证明,而是将复杂问题拆解为若干引理。每证明出一个引理,系统就会将其保留并复用,作为后续推理的基石。


这样一来,模型既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又能够与Lean环境及多种工具进行交互,随时调用工具来验证猜想。


字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌


就是说,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整个证明,也无需每一步都做交互验证。


官方技术报告中还提到,Seed Prover 1.5进行了大规模的Agentic RL。


实验证明,随着强化学习训练步数的增加,模型在训练集上的证明通过率从初始的50%升至接近90%。


Agentic RL还带来了大幅的效率提升。在对比测试中,Seed Prover 1.5仅需少量的计算资源,就能在Putnam和Fate等高难度数据集上,击败消耗大量算力的上一代Seed Prover模型。


字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌


Sketch Model


为了让模型能更好地“打草稿”,研究人员还专门训练了Sketch Model,来模拟人类数学家解决问题的方式:


数学家在证明一个复杂定理时,通常不会直接写出每一步严丝合缝的代码。他们会先在纸上写下一个非形式化的证明草稿,列出关键的中间步骤、引理和大致思路。


Sketch Model同样不纠结于具体的语法细节,而是专注于逻辑路径的规划。它可以将自然语言证明拆解为若干个独立的、难度更低的引理,并暂时跳过具体证明,仅保留整体的逻辑骨架。


这就将原本不可解的复杂命题,转化成了难度更低的子目标。


研究人员采用混合奖励信号的强化学习策略,来训练这一模型:


  • 信号一:Lean编译器验证生成的草图是否完全正确。
  • 信号二:自然语言Prover会逐一检查引理,一旦发现任一引理在数学上不成立,整个草稿即被否决。
  • 信号三:引入基于长思维链的Rubric评分模型,从语义层面评估草稿的质量——考量引理是否与自然语言证明对齐、拆解的粒度是否合适、是否真正降低了原题的难度。


当草稿在形式验证、数学正确性和整体评分上均满足要求时,才会获得正向奖励。


字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌


测试时工作流


以上创新最终构成了一个分层级的多智能体协作系统:


  • Natural Language Prover负责提供高层的数学直觉和自然语言证明。


  • Sketch Model将自然语言转化为形式化的引理结构。


  • Agentic Prover并行地攻克每一个被拆解出的引理。


如果某个引理太难证明,系统还会递归地调用Sketch Model再次进行拆解。这不仅规避了长文本生成的错误累积问题,更提升了推理的并行度和成功率。


字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌


研究人员还验证了这一工作流的测试时Scaling特性。


如上图所示,投入更多的计算资源,Seed Prover 1.5对问题的解决率会呈对数线性增长。


这项研究来自字节Seed AI4Math团队。


量子位捕捉到了其中几位作者的踪迹。


Zheng Yuan,清华统计学博士。今年6月刚刚加入字节,此前在阿里Qwen团队负责对齐和推理方向工作。


Hanwen Zhu,本科毕业于牛津大学数学与计算机科学专业,目前在CMU读研,即将加入字节Seed。


郑泽宇,CMU在读博士,字节Seed实习生,专业方向同样是数学与计算机科学联合方向。


论文链接:

https://arxiv.org/pdf/2512.17260

参考链接:

[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2

[2]https://x.com/GanjinZero/status/2001948751871815741


文章来自于“量子位”,作者 “鱼羊”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md