AI资讯新闻榜单内容搜索-GPT

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

医学AI会写解释，但不代表它真的“看到”了关键证据。

来自主题: AI技术研报

10211 点击 2026-05-28 14:51

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名，仅次于 Claude Opus 4.7。除了真实场景的用户选择，在传统的大模型固定评测榜单上，像是终端能力 Terminal Bench、编程能力 SWE Bench 等，Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

来自主题: AI产品测评

9426 点击 2026-05-28 12:06

GPT-5.5反杀Claude登顶，AI编码旧榜不准了？

一个号称「零污染」的新基准 DeepSWE，用113道原创题撕开了旧编程榜单的遮羞布。

来自主题: AI资讯

8780 点击 2026-05-28 10:51

实锤！GPT-5.5「降智」被抓，OpenAI官方文档认了

GPT-5.5被扒出「假思考」，用两小时就被偷偷换成mini，200美元月费买了个「薛定谔的脑子」。Trace命令实锤，官方文档亲自认领。往后有纷纷吐槽：OpenAI，你糊弄谁呢？

来自主题: AI资讯

8810 点击 2026-05-27 23:48

DeepSeek陈德里开发自动研究Skill，用DeliAutoResearch写一篇论文人类只动脑2小时

DeepSeek研究员陈德里，在个人博客更新一篇研究综述论文。用的是他自己的技能DeliAutoResearch，DeepSeek-V4-Pro研究和写作，GPT-Image2画图。论文共迭代6次（V1：4 次，V2：1 次，V3：1 次），总耗时6天，进行了约108轮Agent调用，消耗64.8万token，写了2234行LaTeX代码。

来自主题: AI资讯

9776 点击 2026-05-27 09:47