AI资讯新闻榜单内容搜索-VERIFIED

花了1000倍的token，效果可能却没有更好：AI Agent的“隐性账单”长什么样

如今的 AI Agent 正在大规模落地，其中应用最广且最受关注的当数 Claude Code，Codex，Cursor 这类 coding agent。过去的一年里，这类 coding agent 产品迭代迅速，在一年内将在 swe-bench- verified 的准确率提高到了 78%+。

来自主题: AI技术研报

7116 点击 2026-05-19 10:00

刚刚，DeepSeek V4基准测试泄露！疑似明天发布，全场惊呼新王归来

DeepSeek V4，据说明天就要上线了？这是首个匹敌顶尖闭源模型的开源模型，被网友评为「一鲸落万物生」。泄露的基准测试显示，它在SWE-bench Verified上取得了83.7%，已经超越Opus 4.5和GPT-5.2！

来自主题: AI资讯

10404 点击 2026-02-16 20:04

阿里深夜开源80B编程模型！专攻智能体，周靖人、林俊旸最新成果发布

个人电脑也能跑出顶级编程智能体？今日凌晨，阿里开源了一款小型混合专家模型Qwen3-Coder-Next，专为编程智能体（Agent）和本地开发打造。该模型总参数80B，激活参数仅3B，在权威基准SWE-Bench Verified上实现了超70%的问题解决率，性能媲美激活参数规模大10-20倍的稠密模型。

来自主题: AI资讯

9362 点击 2026-02-04 17:31

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下，刷屏国内外科技圈。IQuest-Coder-V1模型系列，看起来真的很牛。在最新版SWE-Bench Verified榜单中，40B参数版本的IQuest-Coder取得了81.4%的成绩，这个成绩甚至超过了Claude Opus-4.5和GPT-5.2（这俩模型没有官方资料，但外界普遍猜测参数规模在千亿-万亿级）。

来自主题: AI资讯

10169 点击 2026-01-02 15:14

倒反天罡！Gemini Flash表现超越Pro，“帕累托前沿已经反转了”

倒反天罡！ Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数，比超大杯Pro还略胜一筹。

来自主题: AI资讯

9729 点击 2025-12-23 10:33

字节前技术负责人创业，联手清华姚班校友，编程智能体世界登顶

来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode，在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶，力压一众编程智能体。

来自主题: AI资讯

10751 点击 2025-12-05 14:51

开源即登榜！登顶全球前十AI编程智能体，UCL初创团队开源Prometheus

学界杀入主赛道！UCL 校园团队 EuniAI 抛出开源智能体 Prometheus，在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并；成本低至 $0.23/issue。

来自主题: AI技术研报

10683 点击 2025-10-28 10:34

「开发者私下更喜欢用GPT-5写代码」，Claude还坐得稳编程王座吗？

一直以来，Anthropic 的 Claude 被认为是处理编程任务的最佳模型，尤其是本月初发布的 Claude Opus 4.1，在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中，Claude Opus 4.1 相较于前代 Opus 4 又有提升，尤其在多文件代码重构方面表现出显著进步。

来自主题: AI资讯

9501 点击 2025-08-27 18:09

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分，对比之下，Anthropic的Claude完成全部500题。

来自主题: AI资讯

8360 点击 2025-08-21 15:05

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

刚刚，一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv，其中提出了一个用于构建和扩展 CUA（使用计算机的智能体）的完全开源的框架。使用该框架，他们还构建了一个旗舰模型 OpenCUA-32B，其在 OSWorld-Verified 上达到了 34.8% 的成功率，创下了新的开源 SOTA，甚至在这个基准测试中超越了 GPT-4o。

来自主题: AI技术研报

10419 点击 2025-08-14 09:39