GLM-5 技术报告全解读|a16z:“最好的开源模型”
GLM-5 技术报告全解读|a16z:“最好的开源模型”a16z 昨天发了一张图,把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上。原文的说法是: A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between
a16z 昨天发了一张图,把 GLM-5 和 Claude Opus 4.6 并排标注在 Artificial Analysis Intelligence Index 的时间线上。原文的说法是: A proprietary model (Claude Opus 4.6) is still the 'most intelligent,' but the gap between
在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷
来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知
OpenClaw,塌房了。这个体现开源开发者精神的顶流,干了一件非常不开源精神的事。一款叫Evolver的插件,10分钟登顶ClawHub,24小时被无故下架;
GUI 智能体最近卷到什么程度了?Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:
何朝阳说话时,语言的节奏快而密集。在我们交流的前半个小时里,他一口气介绍完新产品 Teamily.ai 的全部,但我只得到了一个模糊的感受:听起来技术很厉害,但我为什么要用它?
当前 AI Agent 行业有一个系统性的浪费:每个 Agent 都像一块一次性电池,跑完一个任务,过程中积累的经验、调试的策略、踩过的坑,全部随任务结束而消失。下一个 Agent 遇到相同问题,又得从零开始。
今日凌晨,马斯克在社交平台X的推文中称,Grok 4.2能快速学习,测试阶段研究人员会每天进行改进,下个月公测结束时,Grok 4.2的智能程度和速度将比Grok 4高出一个数量级。
就在OpenAI宣布招聘OpenClaw创始人皮特·斯坦伯格(Peter Steinberger)的一天后,Meta便迅速发起反击。 旗下的Manus正式推出了Manus Agents功能,对标OpenClaw,并且首先在Telegram上线。
今日凌晨,Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6,新模型在编程、计算机使用、长上下文推理、Agent规划、知识工作和设计工作上全面进化。