AI资讯新闻榜单内容搜索-gpt

GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

别急着用GPT-5编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的SWE-bench Verified，但货不对板，只用了477个问题。

来自主题: AI资讯

8390 点击 2025-08-12 17:07

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型，统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。

来自主题: AI技术研报

8320 点击 2025-08-12 17:03

OpenAI 发布了 GPT-5，我在公众号里、社群里、论坛里，很多地方都在刷屏一个消息：GPT-5 来了，而且在编程能力上“强得可怕”。

来自主题: AI产品测评

9523 点击 2025-08-12 16:52

从上周开始，我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面：从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎，到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标：「重生」。

来自主题: AI资讯

8091 点击 2025-08-12 16:44

人不能同时踩两个坑，但 OpenAI 做到了。 GPT-5 发布会上，OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表，目前已经调整好了比例。

来自主题: AI资讯

6988 点击 2025-08-12 16:03

大模型好不容易学会数r，结果换个字母就翻车了？而且还是最新的GPT-5。杜克大学教授Kieran Healy表示，自己让GPT-5数了数blueberry里有几个b，结果GPT-5斩钉截铁地回答3个。

来自主题: AI资讯

8357 点击 2025-08-12 12:37

奥特曼砍掉GPT-4o，防止用户沉迷；马斯克Grok 4限时免费，用「热辣模式」和拟人化角色留住用户。

来自主题: AI资讯

7827 点击 2025-08-12 12:22

「一只手有几根手指？」这个看似简单的问题，强如 GPT-5 却并不能总是答对。今天，CMU 博士生、英伟达 GEAR（通用具身智能体研究）团队成员 Tairan He（何泰然）向 GPT-5 询问了这个问题，结果模型回答错了。

来自主题: AI技术研报

8410 点击 2025-08-12 12:08

GPT-oss放飞自我了？！居然出现了明显的幻觉行为。在没有提示词的情况下，消耗超过30000个token凭空想出一个问题，还反复求解了5000多次？！

来自主题: AI资讯

7659 点击 2025-08-12 11:52

刚刚，全球最强开源医疗模型发布，来自中国。百川开源最新医疗推理大模型Baichuan-M2-32B，在OpenAI发布的Healthbench评测集上，超越其刚刚发布5天的开源模型gpt-oss-120b。

来自主题: AI资讯

10713 点击 2025-08-11 16:23