大家都有看 Grok4 的发布会吗?
Grok4 预热了好几天,没想到马斯克还贴心地选择了国内时间发布,再也不用熬夜看发布会了。
发布会一开始,马斯克就说“这是世界上最聪明的 AI。”,并且声称其进化速度“远超任何人类”。简直把观众的期待值拉满。
话说的漂亮,但实际使用效果却是被广大网友纷纷吐槽“翻车”、“拉胯”……
比使用效果还离谱的,是 Grok4 的定价。
Grok4 月费为 30 美刀,而 Grok4 Heavy 版本月费更是高达 300 美刀,并且不给用户免费试用额度,这就很有割韭菜的嫌疑。
网友也是问出了我的心声。
我们先来看发布会的内容,再一起感受一下网友的实测效果,看看万众瞩目的 Grok4 到底怎么样。
XAI 这次发布了两个模型 —— Grok4 和 Grok4 Heavy 。两者都是推理模型,前者是单代理版本,Grok-4 Heavy 则是多代理版本,支持四个代理同时工作。
首先是备受关注的 HLE(Humanity's Last Exam) 测试,
Grok4 在 HLE 测试中取得了非常突出的分数,其 Heavy 版本更是为大模型推理设立了新标准,拿到了 44.4% 的分数,直接碾压了 o3 和 Gemini Pro 。
此外,在 HLE(仅文本)测试中,在使用测试时计算、工具和多个并行代理的情况下,Grok4 Heavy 更是把得分推到了一个惊人的高度 —— 50.7% 。
凭借强大的推理能力,Grok4 能够轻松应对 SAT 和 GRE 等高难度考试,就算是遇到未见过的题目,也能取得近乎完美的成绩。
关于 Grok4 在学术上面的能力,马斯克直言:“关于学术问题,Grok 4 在所有科目上都比 PHD 级别更好。没有例外。”
并且自信预计:“发现新技术可能在今年,新的物理学几乎肯定在两年内。”
除了上面提到的出色成绩之外,Grok4 还在 GPQA Diamond 测试上取得了最高分 87% ,打破了此前由 Gemini Pro 领先的 84% 得分。
在 ARC AGI 上也达到新的 SOTA,是 Claude Opus 4 的两倍。
从下图中可以看到,Grok4 还在AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(在线算法竞赛)、HMMT25(高中生团队数学竞赛)和 USAMO25(美国顶级高中生数学竞赛)中均设立了最新的 SOTA 分数。
并且在 Artificial Analysis 的全套基准测试中也是凭借着 73 的得分超过 o3-pro 位居第一。
Grok4 还在 ARC-AGI-2 上取得新的 SOTA,达到了 15.9% 。
这几乎是之前的 SOTA 得分的两倍,并超越了当前 Kaggle 竞赛的最高分。
还有一点值得关注的是随着训练和计算资源的扩展,Grok4 在性能上的强势增长,主要专注于推理和强化学习。
Grok4 用于 RL 的计算资源几乎与预训练时使用的相同。Grok 4 使用的算力远超其他任何模型的 10× 以上,是 Grok-2 的 100 倍,是 Grok-3 的 10 倍,一共使用了 10 万块 H100 GPU。
除了光拿出数据,发布会上也展示了一些 Grok4 使用的实际例子。
例如:“使用HTML生成一个精美的、30秒长的柔和网格动画,用于可视化两个碰撞黑洞所产生的引力波,并包含“铃振”(ringdown)阶段。最大化物理准确性,并对(黑洞的)运动轨迹进行合理性检查。”,看起来效果还不错。
还有更多 demo 展示,例如现场解数学题。
或者根据 X 上的帖子提供一份 HLE 分数公布变更的时间线等,这里就不一一列举了,指路完整版视频链接,感兴趣的小伙伴可以看看:
https://x.com/i/events/1942716886258528256
发布会还展示了 Danny Limanseta 仅在 4 小时内使用 Grok4 创建的一款 FPS 射击游戏。
并且表示 Grok 不仅能够制作游戏,还能实际游玩并理解什么样的游戏是优秀的,以及如何让游戏变得更好。
现场还展示了 Grok4 的语音模式,并且本场直播开场语正是使用 Grok4 语音模式中的一个声音说的。
Grok4 语音模式的亮点首先是更加流畅和快速,延迟被减半。可供选择的声音个数也升至 5 个。
还有语音出色的自然感,当场让 Eve (Grok4 其中一个语音)耳语来让用户平静下来,感觉还不错,有点哄睡 ASMR 的感觉了。并且不会打断对话,更加像人类。
现场还整活让它唱了一段零糖可乐的歌剧,不仅是马斯克,屏幕前的我也听乐了。
不得不说, Grok4 发布会上的表现还不错,各项分数也很亮眼,但对于用户来说,实际上手的体验感受才是最重要的。
秉持着坚决不被割韭菜的原则,我们也找来了网友们第一时间的实测,看看它到底值不值这个价。
先上结论:除非是想体验效果,否则不推荐订阅。
首先是考验大模型前端 UI 设计的天气卡片问题,使用如下 prompt:
你是一位就职于苹果公司的顶级前端工程师,请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:风力(如:飘动的云朵、摇曳的树木或风线)降雨(如:下落的雨滴、形成的水注)晴天(如:闪耀的光线、明亮的背景)下雪(如:飘落的雪花、积雪效果)。要求有常见的多种天气以外还要有冰雹、大雾、台风这三种。所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。将前端显示效果优化得更精致流畅,打造出价值200000元/月的精品天气应用既视感。
Grok4 的输出:
你没看错,就是什么都没有。
我们再来看看使用上面相同 prompt,其他家输出的结果。
Gemini 2.5 pro:
Claude opus 4:
o3 pro:
我们也找来了其他使用 Grok4 成功渲染出天气卡片的结果,但是效果都有些抽象。
比如这样的。
还有这样的。
谁来了不说一句这方面还得是 Claude 。
除了抽象的天气卡片,更抽象的还有 Grok4 的思考过程。
深度思考下全是 thinking,没有具体的思考内容,还不给设置 reasoning_effort 。
这不是个例,看得出来 Grok4 思考的很用力了。
不仅如此,先不谈编程、数学推理那些“高大上”的能力,就连日常的对话问答、文章写作方面,Grok4 也只是表现平平。
再来看看同一个问题 Gemini 2.5 pro 的结果。
还有马斯克之前称 Grok4 是有幽默感的大模型,网友也是让它写了几个原创笑话。
笑点因人而异,好不好笑大家就自行体会了。
整体看下来,Grok4 的表现并没有达到大家预期的。虽然 Grok4 跑分第一名,但是用户实际上手体验却差点意思,价格还贵,没有特殊需求的用户很难回本。
或许它的推理能力真的强到快要创造新的物理学,可对多数普通用户来说,使用更频繁的那些基础能力过硬才是首要条件。
这也让人怀念起当初在性能上真有代差,而且还便宜的 R1。
R2 到底什么时候才端上来啊喂?
文章来自于微信公众号“JackCui”。
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales