斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库 斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库 关键词: AI,Putnam-AXIOM,AI数学,模型测试 只是换一下数学题的变量名称,大模型就可能集体降智?? 来自主题: AI技术研报 3830 点击 2025-01-05 20:18