AI资讯新闻榜单内容搜索-AI编程测试

阿里联手中山大学放狠话：75%的Agent都在造“屎山”！233天连环大测，代码库全崩了！自研新基准：GLM表现亮眼！网友：程序员饭碗保住了！

刚刚，一篇阿里联合中山大学的研究在 X 上爆火了！

来自主题: AI资讯

8590 点击 2026-03-18 13:54

编程智能体时代，顶流Cursor举旗发布新的评测基准——CursorBench，专门评价Cursor中不同模型谁更“智能体”（即高效执行复杂任务）。关于咋评的这个问题，Cursor还专门撰写了一篇博客。

来自主题: AI资讯

9747 点击 2026-03-14 13:59