马斯克的Grok 4.3悄悄上线，跑分评测出炉

9588点击 2026-05-02 18:35

xAI 发布 Grok 4.3，没有把声量拉到最大，马斯克甚至没单独发推，看起来只是个过渡版本。

https://x.com/elonmusk/status/2045590599206875216

它更像一次安静的产品换挡：把模型放进 API，把价格打下来，把工具能力补上，再告诉开发者可以从旧版 Grok 迁移过来。

没有 AGI 宏大叙事，也少了马斯克式的「即将改变一切」。这反而让 Grok 4.3 看起来更真实。

对普通消费者来说，Grok 4.3 最重要的变化并非某个榜单分数涨了几分，而是 AI 助手正在变得更便宜、更快，也更像一个能替人完成文件、表格、演示文稿的合格助手。

然而，Grok 4.3 的聪明程度仍然没追上 GPT-5.5 和 Claude Opus 4.7。

它是一款性价比很强的新模型，也是一款仍有明显天花板的模型。

消费者真正需要关心的，是它在哪些场景能省钱省时间，在哪些场景会因为判断不准、想太久或说太多，反而增加成本。

它确实变强了

尤其像一个更会干活的助手

Artificial Analysis 给 Grok 4.3 的 Intelligence Index 打到 53 分，比 Grok 4.20 0309 v2 高 4 分，也超过 Claude Sonnet 4.6 和 Muse Spark。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

这个提升不算小，尤其在 xAI 自家模型线里，Grok 4.3 已经是目前最强的一档。

更值得看的是代理任务表现。

Grok 4.3 在 GDPval-AA 上拿到 1500 Elo，相比 Grok 4.20 0309 v2 的 1179，提升了 321 分。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

这个榜单更接近日常「让 AI 做事」的场景，比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。

让 AI 帮忙写周报、搭表格、做方案、拆会议纪要、生成 PPT，Grok 4.3 的体验会比前代更完整。

Grok 可以创建演示文稿、文档和电子表格，可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。

对不懂代码的用户来说，这意味着很多原本需要在 Excel、PowerPoint、浏览器之间来回切换的操作，可能会被压缩成一句指令。

这也是 AI 消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完，把一份旅行计划排清楚，把一封语气得体的邮件写好。

Grok 4.3 在这部分的进步，是真进步。

更便宜

是这次最直接的产品卖点

Grok 4.3 的价格很有侵略性。

它的 API 价格为每百万输入 Tokens 1.25 美元、每百万输出 Tokens 2.50 美元，相比 Grok 4.20 输入价格低约 40%，输出价格低约 60%。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

Artificial Analysis 测算，运行整套 Intelligence Index 评测成本约为 395 美元，比 Grok 4.20 0309 v2 低约 20%。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

这会影响消费者，只是方式没那么直观。

大多数普通人不会直接调用 API，但他们会用到基于 API 构建的产品。

AI 写作工具、客服机器人、语音助理、教育应用、办公插件，背后都要为模型调用付费。

当底层模型价格下降，应用厂商有空间降低订阅费，或者在同样价格下提供更多次数、更长上下文、更复杂任务。

Grok 4.3 还有一个优势是速度。

Artificial Analysis 的 xAI 模型页显示，它是 xAI 当前输出速度最快的模型之一，约 196 Tokens/s，属于很快的一档。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

对语音聊天、实时客服、长文生成和批量内容处理来说，等待时间会直接影响体验。

但速度有一个细节容易被忽略：Grok 4.3 的首 Token 延迟并不低。

它会先「想一会儿」，然后快速输出。

长答案里，这种速度优势明显；短对话里，用户可能先感受到停顿，再感受到快。

用于客服、语音助手、移动端聊天时，这个差异会被放大。

它更会说人话

这是 Grok 的隐藏优势

Grok 一直有一个微妙优势：语气更像真人。

Hacker News 上有人提到，一些英语非母语用户认为 Grok 在把握文本语气、正式程度和微妙人际表达上，比其他模型更自然。

有人拿它和 ChatGPT、Claude 比，认为 Grok 在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

https://news.ycombinator.com/item?id=47972447

Grok 可能受益于 X 平台海量口语化表达训练。

它更容易捕捉社交网络里的语气、节奏、松弛感等；它也可能因此继承社交网络的噪音、偏见和表达习惯。

对 C 端用户来说，这种「更自然」的能力会让 Grok 在写消息、口语转写、语音助手、轻办公场景里很讨喜。

它未必最聪明，但可能更像一个愿意按你的语气说话的助手。

Yes, BUT...

它比不过 GPT-5.5 和 Claude Opus 4.7

Grok 4.3 最大的问题，是它看起来已经进入第一梯队边缘，却还没站到最前面。

Grok 4.3 的 Intelligence Index 为 53，GPT-5.5 为 60，Claude Opus 4.7 为 57。

这个差距不只是排行榜上的几分。

对普通消费者来说，它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。

在 GDPval-AA 上，Grok 4.3 的提升很大，但仍落后 GPT-5.5 xhigh 276 Elo，按标准 Elo 公式，面对 GPT-5.5 的预期胜率约 17%。

它在幻觉控制上也有代价。

Grok 4.3 的 AA-Omniscience Accuracy（准确率）提升 8 分，但 Non-Hallucination Rate（非幻觉率）下降 8 分。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

这里的准确率和非幻觉率是不同的，准确率只看你答对了多少，而非幻觉率是看你没答出来的问题里面，有多少是模型老实承认自己不会的——不会但振振有词，就是所谓的「幻觉」。

换言之，Grok 4.3 的知识覆盖率变高了，但也更容易出现幻觉了。

而消费者最怕的情况就是 AI 答得很流畅、很自信、很像那么回事，结果关键事实错了。

人类已经很擅长自信地犯错，机器不必急着加入这个传统项目。

这意味着，在医疗、法律、金融、学术和工程等高风险场景里，Grok 4.3 仍需要谨慎使用。

它适合帮用户起草、整理、生成初稿，适合做低风险的辅助工作；涉及最终判断，GPT-5.5 和 Claude Opus 4.7 仍更稳。

长上下文和工具能力很好

但消费者买账的是结果

Grok 4.3 提供 100 万 Token 上下文窗口，这对长文档、代码库、合同、报告和资料库很有吸引力。

马斯克的Grok 4.3悄悄上线，跑分评测出炉

用户可以丢进去更多材料，让模型在更完整的信息环境里工作。

对研究、办公和创作来说，这是一种实用能力。

它还支持文本和图像输入，输出文本，并围绕工具调用、网页搜索、X 搜索、代码执行、文件搜索、RAG 等能力加强。

xAI 还推出了 Custom Voices、语音代理、TTS 和 STT 等产品，把 Grok 的边界从文字扩展到语音。

对普通用户来说，未来的 Grok 可能不只是一个聊天框，而是一个能读文件、查网页、写表格、说话、听话的多模态助手。

问题在于，功能多不等于体验好。

消费级 AI 的竞争，最后会回到三个朴素标准：少等、少错、少折腾。

Grok 4.3 在「少等」和「少花钱」上明显前进，在「少错」上还没给出足够强的答案。

Grok 4.3 的准确定位：

性价比模型，不是最强模型

Grok 4.3 最适合的定位，是一款高性价比的工作型模型。

它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。

它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。

很多消费者并不需要每次都调用最强模型，就像不应该只是为了买菜开超跑，除非另有所图。

但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断，Grok 4.3 还不该成为第一选择。

GPT-5.5 和 Claude Opus 4.7 仍然更适合承担这些高价值、高风险任务。

这次 xAI 的策略很清楚：先把模型做得足够强，再把价格打下来，用速度和工具能力扩大可用场景。

它没有赢下「最聪明模型」的头衔，但可能会赢走一部分真实使用量。

因为市场并不总奖励最强者，也奖励够强、够快、够便宜的选择。

Grok 4.3 的意义正在这里。它把 xAI 从一个经常靠马斯克声量吸引注意的模型供应商，往更务实的 API 和消费级工具竞争者方向推进了一步。

它看起来很好，确实很好；只是还没好到能让 GPT-5.5 和 Claude Opus 4.7 紧张。

消费者可以期待它降价、提速、让更多 AI 应用变得便宜。

也该记住，在需要真正聪明和可靠的地方，Grok 4.3 仍然只是备选项。

参考资料：

https://artificialanalysis.ai/models/grok-4-3

文章来自于微信公众号 "新智元"，作者 "新智元"

关键词: AI新闻 , Grok 4.3 , Grok , xAI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales