AI资讯新闻榜单内容搜索-Benchmark

Workflow Gym：告别仿真测试，抹平Agent落地鸿沟

你可能已经在各种 benchmark 榜单上看过 GUI Agent 的 "大胜" 了。

来自主题: AI技术研报

6927 点击 2026-07-24 10:45

47.6％，阿里Qoder拿到了比跑分更硬的成绩

对 AI Coding 来说，有人用，比任何 Benchmark 都管用，而有人持续付费，又比有人用更管用。

来自主题: AI资讯

5854 点击 2026-07-16 14:45

3.8万小时、狂烧天价token：字节发现Agent的 Scaling Law

7月2日，字节 Seed 发布了一个 Agent评测项目 EdgeBench。看起来又是一个 benchmark，但它问了一个其他榜单不问的问题。EdgeBench 的切口就是把盲区里的东西放进评测，解答一个问题：把Agent扔进一个陌生环境，12小时后，你能变强多少？

来自主题: AI技术研报

8924 点击 2026-07-08 15:53

Claude、GLM、GPT谁才是真正的AI软件工程师？首个持续更新Visual Spec-to-App Benchmark发布

为了解决这一问题，来自 University of Arizona、Zoom 与 Stony Brook University 的研究团队推出了 VISTA（VIsual Spec-To-App Benchmark）, 首个面向 Visual Spec-to-Web-App Coding Agents 的端到端 Benchmark。

来自主题: AI技术研报

8261 点击 2026-07-06 15:49

本周 AI 项目推荐：UXBench、MemLens、RoadmapBench…下一代模型，需要下一代 Benchmark

我们最近在重新思考一件事：到底什么样的 Benchmark，才值得今天继续做？

来自主题: AI资讯

6496 点击 2026-06-22 09:37

葬AI基准测试发布：GLM 5.2第一，超越Opus 4.8

这是葬AI起号以来工作量最大的一篇文章。为了严肃评测国产模型的能力，我自研了一个Benchmark，完整测试了智谱、Qwen、Kimi、Minimax、Deepseek这些最新国产模型，还引入了境外势力Claude作对照组。

来自主题: AI资讯

9449 点击 2026-06-17 13:30

Sarah Guo：能被 Benchmark 衡量的工作，都不应该是你的创业方向

今年开年以来，不管是硅谷、还是国内的 AI 投资圈子，都不太敢投 AI 应用了。

来自主题: AI资讯

10294 点击 2026-06-12 10:14

我做了个测试 Claude API 中转站的 Skill，测完发现水太深了

根据我长期使用的观察，0.3 倍率说是用 Kiro 逆向出来的 Claude，2.0 倍率说是正经 Claude Max 号池接出来的。听起来后者肯定更靠谱。我一开始也这么想的。毕竟倍率差了快七倍，价格摆在那，总不至于拿假货糊弄人吧。

来自主题: AI资讯

13700 点击 2026-06-11 16:53

CVPR 2026｜LLM会写3D视觉代码吗？清华联合智源用GeoCodeBench给出答案

近日，来自清华大学智能产业研究院（AIR）的团队联合北京智源研究院（BAAI）、北京大学、南京大学等机构构建了一个基准：GeoCodeBench。这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark，

来自主题: AI技术研报

9828 点击 2026-06-07 10:54

刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

2026 年初，国内具身智能赛道掀起了一波开源潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上，尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报

8782 点击 2026-05-29 09:19