
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的别急着用GPT-5编程了,可能它能力没有你想象中那么强。 有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。
别急着用GPT-5编程了,可能它能力没有你想象中那么强。 有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。
OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。
一觉醒来,OpenAI 的大模型又完成了一项壮举!在全球顶级编程赛事之一 ——2025 年国际信息学奥林匹克(IOI)中,OpenAI 的推理模型取得了足以摘得金牌的高分,并在 AI 参赛者中排名第一!
GPT-oss放飞自我了?!居然出现了明显的幻觉行为。 在没有提示词的情况下,消耗超过30000个token凭空想出一个问题,还反复求解了5000多次?!
GPT-5智商测试,仅拿下了70分?全网狂吐槽「降智」背后的真相,竟是「路由」决定了模型的智能。想要解锁神级GPT-5,秘诀在于prompt。这不,医学家借助GPT-5重现了「神之一手」时刻。
很多开发者开始吐槽和弃用 Cursor。Web 工程师 Tom Byrer 吐槽道,“我让 Cursor 使用某个仓库的最新版本,它却安装了一个 6 个月前的版本,漏掉了 60 个更新。我发给它 GitHub 仓库链接,结果它用了 4 个月前的版本。我发了 NPM 项目的页面链接,它还是用了 4 个月前的版本。”
Claude Code 在短短 5 个月内就实现了年化 4 亿美元的营收,成为史上增长最快的产品之一。更重要的是,它正在重新定义程序员与代码之间的关系。
短短4个月,用户已经创建20万个应用,而且没有用一行代码! 这是百度无代码应用搭建平台 —— 秒哒的最新战绩。
如果你真的想进入深度的 vibe coding 状态,让 AI 发挥最大潜力,这种随时准备接管的心态反而会成为阻碍。人类开发者的干预时机和直接下场写代码的时候越少,最终呈现出的效率和效果反而越好。
一起给GPT5上上强度吧! 我相信它的参数、API、纸面实力已经被扒得差不多了,所以接下来的内容先会分为总结篇,把system card、发布会、OpenAI自家技术博客、奥特曼私下说的信息做个全篇,然后从编程、写作、多模态、PPT等等给GPT犁一边,最后再总结一下GPT-5后续的一些开发计划啥的,Here we go!