实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩
实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
来自主题: AI资讯
8530 点击 2026-06-26 20:29
搜索
Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。