AI资讯新闻榜单内容搜索-AI基准

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

刚刚开源的新基准测试PaperBench，6款前沿大模型驱动智能体PK复现AI顶会论文，新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比，PaperBench更考验综合能力，不再是只执行单一任务。

来自主题: AI资讯

10642 点击 2025-04-03 10:37

为了进一步挑战AI系统，大家已经开始研究一些最困难的竞赛中的问题，特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报

5957 点击 2025-04-01 09:49

AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中，所有顶尖LLM通过率不超过10%，而且模型都表现得过度自信。

来自主题: AI技术研报

7816 点击 2025-01-27 13:36

测试结果显示出想开发出能与人类计算机操作能力相仿的AI，还存在很大挑战。

来自主题: AI资讯

10527 点击 2024-09-18 22:04