
超越DeepSeek推理,效率更高!斯坦福马腾宇新作:有限数据,无限迭代
超越DeepSeek推理,效率更高!斯坦福马腾宇新作:有限数据,无限迭代STP(自博弈定理证明器)让模型扮演「猜想者」和「证明者」,互相提供训练信号,在有限的数据下实现了无限自我改进,在Lean和Isabelle验证器上的表现显著优于现有方法,证明成功率翻倍,并在多个基准测试中达到最先进的性能。
来自主题: AI技术研报
3698 点击 2025-02-28 15:21
STP(自博弈定理证明器)让模型扮演「猜想者」和「证明者」,互相提供训练信号,在有限的数据下实现了无限自我改进,在Lean和Isabelle验证器上的表现显著优于现有方法,证明成功率翻倍,并在多个基准测试中达到最先进的性能。