马斯克的Grok 4.3悄悄上线,跑分评测出炉
马斯克的Grok 4.3悄悄上线,跑分评测出炉Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。
搜索
Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。
近日,ARC Prize 官方发布了针对这两款顶级模型的详细分析报告,结果令人震惊:在面对未见过的逻辑任务时,两者的表现得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。
但 2026 年 4 月 24 日 The Midas Project 执行总监 Tyler Johnston 在 Model Republic 发表的一篇调查给出了一个与该承诺明显矛盾的结果。一家叫 Acutus 的“独立新闻网站”四个月发了 94 篇文章,AI 检测显示其中的 97%含 AI 内容,而攻击对象集中在 AI 监管派身上。
从「胡言乱语」到「为非作歹」,AI进化史最荒诞一幕上演:Claude Opus 4.7在max effort模式下,把开发者红线当背景音,自主决策群发邮件20次!Anthropic的安全旗舰,成了最危险的「惹祸精」。
OpenClaw 刚刚发布 2026.4.27 版本,一次性把 DeepInfra 多模态 provider、非图片附件链路、企业级代理路由、模型选择确定性、网关/通道/会话稳定性五件事全部补齐。近 900 人点赞,6.3 万人围观,社区却吵成两派——一边夸"终于补了生产级地基",一边追问"上几版的 gateway 坑到底填了没"。
刚看到这个 Demo 的时候着实有些想笑,很久没有见过吐词如此之慢的大模型了。观感上就像「闪电」老师。尽管只有每秒 0.6 个 tokens 的输出速率,这依旧是一个令人不可思议的工作。因为这是一个跑在 iPhone 17 Pro 上的 400B 大模型!
天弘基金持有人数据显示,2025年末,公司旗下所有AI产业链指数产品的95后持有人户数同比增长92.14%;00后持有人户数同比增长超2倍。而05后入场AI投资的势头最为迅猛,持有人户数较2024年末猛增十倍。整体来看,30岁以下持有人占比从2024年的1.94%近乎翻倍至3.78%。
可能还有些人记得,去年年底的时候,Anthropic 在自家办公室搞了一个自动售货项目,「主理人」是 Claude——哦不,主理机。当时是让 Claude Sonnet 3.7 在办公室里经营一台自动售货机,管进货、定价、跟同事聊天推销,干了大概一个月。结果
基于此,研究者在 89 个参数量已知的开源模型(规模从 1.35 亿到 1.6 万亿参数)上拟合出事实准确率与参数量的对数线性关系,拟合优度 R² = 0.917,并据此对闭源模型进行参数估算。
这不是恐怖故事,也不是田螺姑娘的寓言故事,而是 3 月 17 日,HooRii 在 Kickstarter 上线的众筹项目「ClawStage」的宣传。它的定位是“OpenClaw 的现实世界游乐场”——用一个小方块,让 OpenClaw 来到现实世界,并能担任你的家庭管家。