
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!
来自主题: AI技术研报
4331 点击 2024-11-11 14:36