AI资讯新闻榜单内容搜索-o3

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

GUI 智能体正以前所未有的速度崛起，有望彻底改变人机交互的方式。然而，这一领域的进展正面临瓶颈：现有数据集大多聚焦于 10 步以内的短程交互，且仅验证最终结果，无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。

来自主题: AI资讯

8817 点击 2025-08-13 16:17

因为GPT-5，这群人决定在Reddit上起义。

这个周末，对OpenAI的抗诉，好像从未如此热闹过。起因自然还是因为GPT-5。 OpenAI上了GPT-5当天，做了一个非常神奇的操作，他们只保留了GPT-5，然后把GPT-4.5、GPT-4o、o3什么的，全都砍掉了。

来自主题: AI资讯

9549 点击 2025-08-11 11:51

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

27M小模型超越o3-mini-high和DeepSeek-R1！推理还不靠思维链。开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友，Sapient Intelligence的创始人王冠。

来自主题: AI技术研报

8901 点击 2025-08-10 15:00

OpenAI o3封王，4比0横扫马斯克Grok 4！全球大模型对抗赛完美收官

决赛前，它是沉默、精准、不可一世的冠军候选；决赛后，它成了连续送子、失误连连的背景板。Grok 4经历了从神坛到谷底的戏剧性一天，它的轰然倒塌，也成就了o3的不败王者神话。

来自主题: AI资讯

9221 点击 2025-08-09 12:12

4比0横扫Grok 4，o3强势夺冠，首届大模型对抗赛结果出炉

备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛（也即大模型国际象棋对抗赛）迎来了最终赢家。就在昨天，Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中，大家更倾向于 o3 战胜 Grok 4。

来自主题: AI资讯

10111 点击 2025-08-09 10:05

您猜怎么着？Grok 4进决赛，大模型对抗赛Gemini全军覆没，马斯克「装」起来了

明天，Grok 对阵 OpenAI 的 o3。谁也没想到，谷歌攒的 Kaggle AI Chess 比赛（即大模型国际象棋对抗赛），在半决赛中，Grok 4 击败 Gemini 2.5 Pro，进入总决赛！

来自主题: AI资讯

9634 点击 2025-08-07 18:30

刚刚，马斯克Grok4干翻谷歌Gemini！o3杀入首届大模型对抗赛决战

第二轮首届大模型对抗赛结果出炉了！o3轻而易举击败o4-mini，拿下100%胜率。Grok 4和Gemini 2.5 Pro激烈对决，最终在加赛中Grok 4成功晋级。明日，Grok 4和o3将迎来终局之战。

来自主题: AI资讯

8984 点击 2025-08-07 12:31

豆包悄悄上线的这个新功能，也能用眼睛推理全世界了。

上周我写过一篇AI产品自用分享，当时我说，AI知识问答方面，我会选择openai o3和豆包。

来自主题: AI资讯

10643 点击 2025-08-07 11:39

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

当前环境感知通信正逐步成为第六代移动通信系统（6G）的核心使能技术之一。为支撑其在复杂三维环境下的部署需求，西安电子科技大学、香港中文大学（深圳）和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D，并构建了基于扩散模型的三维无线电图生成框架RadioDiff-3D。

来自主题: AI技术研报

8603 点击 2025-08-05 16:07

谷歌深夜放出 IMO 金牌模型，多项测试力压 Grok 4、OpenAI o3！网友评论两极分化

昨夜，谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能，Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。

来自主题: AI资讯

8161 点击 2025-08-02 13:09