AI资讯新闻榜单内容搜索-大模

OpenAI o3封王，4比0横扫马斯克Grok 4！全球大模型对抗赛完美收官

决赛前，它是沉默、精准、不可一世的冠军候选；决赛后，它成了连续送子、失误连连的背景板。Grok 4经历了从神坛到谷底的戏剧性一天，它的轰然倒塌，也成就了o3的不败王者神话。

来自主题: AI资讯

7753 点击 2025-08-09 12:12

首篇WebAgents综述：大模型赋能AI Agent，实现下一代Web自动化

互联网技术的发展极大地便利了我们的生活，但许多网络任务重复繁琐，降低了效率。为了解决这一问题，研究人员正在开发基于大型基础模型（LFMs）的智能体——WebAgents，通过感知环境、规划推理和执行交互来完成用户指令，显著提升便利性。香港理工大学的研究人员从架构、训练和可信性等角度，总结了WebAgents的代表性方法，全面梳理了相关研究进展。

来自主题: AI技术研报

7680 点击 2025-08-09 11:24

3B模型性能小钢炮，“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

当大模型把人类曾经的终极考题变成日常练习，AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进，验证答案的本事却成了拖后腿的短板。为此，上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。

来自主题: AI技术研报

6822 点击 2025-08-09 11:11

AI对话，最先“伤害”老年人？

AI对话技术最初用于年轻人整蛊父母的声音克隆，但老年人主动用作“情感拐杖”缓解孤独，带来安全倾诉环境。心理咨询师警告AI可能导致即时反馈成瘾、替代真实关系，削弱现实冲突应对力，类似《her》电影困境；AI谄媚性模糊是非，影响判断力。技术初衷高效连接需求，却简化人际复杂本质。

来自主题: AI资讯

8539 点击 2025-08-09 10:24

在这场中美AI竞赛中，我们的互联网大厂正在迅速边缘化

美国四家科技巨头在AI领域资本开支远超中国，2024年1.7万亿人民币 vs 中国6300亿，2025年差距扩大至2.5万亿 vs 5000亿。中国公司优先分红回购，AI采用率低（15% vs 美国85%），技术债积累，网络效应加剧中美差距，中国大厂被边缘化。

来自主题: AI资讯

7380 点击 2025-08-09 10:13

4比0横扫Grok 4，o3强势夺冠，首届大模型对抗赛结果出炉

备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛（也即大模型国际象棋对抗赛）迎来了最终赢家。就在昨天，Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中，大家更倾向于 o3 战胜 Grok 4。

来自主题: AI资讯

8741 点击 2025-08-09 10:05

中国人工智能报告2025：新趋势

人工智能引领第四次科技革命，是当前最火的、最具前景、最具爆发力的科技赛道。进入到2025年，发生了什么新的变化？中国人工智能正告别“百模大战”的规模竞赛，向以DeepSeek等六小虎为代表的头部大模型集中。AI发展的核心，从追求模型“可用”转向实现场景的“好用”。

来自主题: AI资讯

23837 点击 2025-08-08 12:33

云计算一哥首度牵手OpenAI，大模型「选择」自由，才是终极胜利

昨天是个热闹的日子，OpenAI 和 Anthropic 几乎在同一时间发布了自家的新款模型：前者是自 GPT-2 以来重新开源的两款模型 gpt-oss（120b 和 20b），后者是 Claude 系列最强的 Opus 4.1。

来自主题: AI资讯

7803 点击 2025-08-08 12:26

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

来自主题: AI技术研报

7820 点击 2025-08-08 11:52

全球最大AI模型聚合平台诞生！不争冠军只做擂台

2023年，当整个AI行业都在为“最强大模型”争得头破血流时，亚马逊云科技却洞察到一个关键事实：AI的价值不在于谁的模型最强大，而在于能否为不同场景选择最适合的模型。

来自主题: AI资讯

6857 点击 2025-08-08 11:34