OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官
OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官决赛前,它是沉默、精准、不可一世的冠军候选;决赛后,它成了连续送子、失误连连的背景板。Grok 4经历了从神坛到谷底的戏剧性一天,它的轰然倒塌,也成就了o3的不败王者神话。
决赛前,它是沉默、精准、不可一世的冠军候选;决赛后,它成了连续送子、失误连连的背景板。Grok 4经历了从神坛到谷底的戏剧性一天,它的轰然倒塌,也成就了o3的不败王者神话。
互联网技术的发展极大地便利了我们的生活,但许多网络任务重复繁琐,降低了效率。为了解决这一问题,研究人员正在开发基于大型基础模型(LFMs)的智能体——WebAgents,通过感知环境、规划推理和执行交互来完成用户指令,显著提升便利性。香港理工大学的研究人员从架构、训练和可信性等角度,总结了WebAgents的代表性方法,全面梳理了相关研究进展。
当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。
AI对话技术最初用于年轻人整蛊父母的声音克隆,但老年人主动用作“情感拐杖”缓解孤独,带来安全倾诉环境。心理咨询师警告AI可能导致即时反馈成瘾、替代真实关系,削弱现实冲突应对力,类似《her》电影困境;AI谄媚性模糊是非,影响判断力。技术初衷高效连接需求,却简化人际复杂本质。
美国四家科技巨头在AI领域资本开支远超中国,2024年1.7万亿人民币 vs 中国6300亿,2025年差距扩大至2.5万亿 vs 5000亿。中国公司优先分红回购,AI采用率低(15% vs 美国85%),技术债积累,网络效应加剧中美差距,中国大厂被边缘化。
备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中,大家更倾向于 o3 战胜 Grok 4。
人工智能引领第四次科技革命,是当前最火的、最具前景、最具爆发力的科技赛道。进入到2025年,发生了什么新的变化?中国人工智能正告别“百模大战”的规模竞赛,向以DeepSeek等六小虎为代表的头部大模型集中。AI发展的核心,从追求模型“可用”转向实现场景的“好用”。
昨天是个热闹的日子,OpenAI 和 Anthropic 几乎在同一时间发布了自家的新款模型:前者是自 GPT-2 以来重新开源的两款模型 gpt-oss(120b 和 20b),后者是 Claude 系列最强的 Opus 4.1。
自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。
2023年,当整个AI行业都在为“最强大模型”争得头破血流时,亚马逊云科技却洞察到一个关键事实:AI的价值不在于谁的模型最强大,而在于能否为不同场景选择最适合的模型。