AI资讯新闻榜单内容搜索-GPT-5编程

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO，出现反转！表面上看，“御三家”集体翻车，没一家的解决率超过25%： GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报

11125 点击 2025-09-22 16:11

OpenAI Codex编程智能体大升级：推出GPT-5-Codex特化版模型，支持独立连续编程7个小时。还有IDE插件版，在VS Code、Cursor中都可以使用Codex了。新模型最牛的地方在于“真·动态思考”能力。

来自主题: AI资讯

11458 点击 2025-09-16 09:31

别急着用GPT-5编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的SWE-bench Verified，但货不对板，只用了477个问题。

来自主题: AI资讯

8710 点击 2025-08-12 17:07

就在刚刚，GPT-5悄悄身披马甲出道了？一个代号为「Lobster（龙虾）」的神秘模型在WebDev Arena横空出世，轻松吊打Grok-4，网友纷纷猜测：这就是GPT-5本尊！更有提前试用者曝出：GPT-5编程能力惊人，甚至能改屎山代码。

来自主题: AI资讯

10352 点击 2025-07-27 20:13