实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩
实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
搜索
Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
TRAE Work上新了一个Design模式,专门搞设计的。之前TRAE Work已经有Work模式聊需求、Code模式写代码,现在补上了Design——需求→设计→代码,全链路在一个平台里跑通了。
刚刚才发现,那堪称DeepMind「推理之王」的男人——周登勇(Denny Zhou),早已离开了谷歌。现在的东家是Meta,在MSL担任研究科学家。整个过程极其低调。没有长篇大论的告别信,没有Meta的高调官宣,如果不是LinkedIn上的职位信息悄悄更新,外界甚至不知道这位大牛已经易主。
刚刚,翁荔(Lilian Weng)的博客 Lil'Log 终于更新了!要知道,自从她联合创立了 Thinking Machines Lab 之后,她那让许多人受益良多的博客就鲜少更新了——距离她上一次更新,已经过去了 13 个月。
Claude Fable 5,回来了。
好好好,起大早赶晚集的谷歌,这次又拿出了新东西—— Computer use,就是那个电脑操作能力,这回直接被内置进Gemini 3.5 Flash:
图灵奖得主杨立昆提出的JEPA世界模型理论,终于在敏捷无人机机载高频控制场景完成工程落地了。
一百年前,霍乱、伤寒、痢疾等水源性疾病曾被视为生活中不可避免的一部分。后来,人类通过药物和净水基础设施,降低了疾病的发生率。
一家刚完成10亿元A轮融资的具身公司,是这么定义具身标准数据格式的: Object Trajectory。
押注 AI 的 Memory Layer。