实测翻车?!刷爆高难度榜单的Grok4到底怎么样?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
实测翻车?!刷爆高难度榜单的Grok4到底怎么样?
5494点击    2025-07-11 12:33

大家都有看 Grok4 的发布会吗?


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


Grok4 预热了好几天,没想到马斯克还贴心地选择了国内时间发布,再也不用熬夜看发布会了。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


发布会一开始,马斯克就说“这是世界上最聪明的 AI。”,并且声称其进化速度“远超任何人类”。简直把观众的期待值拉满。


话说的漂亮,但实际使用效果却是被广大网友纷纷吐槽“翻车”、“拉胯”……


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


比使用效果还离谱的,是 Grok4 的定价。


Grok4 月费为 30 美刀,而 Grok4 Heavy 版本月费更是高达 300 美刀,并且不给用户免费试用额度,这就很有割韭菜的嫌疑。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


网友也是问出了我的心声。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


我们先来看发布会的内容,再一起感受一下网友的实测效果,看看万众瞩目的 Grok4 到底怎么样。


一、发布会


XAI 这次发布了两个模型 —— Grok4 和 Grok4 Heavy 。两者都是推理模型,前者是单代理版本,Grok-4 Heavy 则是多代理版本,支持四个代理同时工作。


分数数据


首先是备受关注的 HLE(Humanity's Last Exam) 测试,


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


Grok4 在 HLE 测试中取得了非常突出的分数,其 Heavy 版本更是为大模型推理设立了新标准,拿到了 44.4% 的分数,直接碾压了 o3 和 Gemini Pro 。


此外,在 HLE(仅文本)测试中,在使用测试时计算、工具和多个并行代理的情况下,Grok4 Heavy 更是把得分推到了一个惊人的高度 —— 50.7% 。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


凭借强大的推理能力,Grok4 能够轻松应对 SAT 和 GRE 等高难度考试,就算是遇到未见过的题目,也能取得近乎完美的成绩。


关于 Grok4 在学术上面的能力,马斯克直言:“关于学术问题,Grok 4 在所有科目上都比 PHD 级别更好。没有例外。”


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


并且自信预计:“发现新技术可能在今年,新的物理学几乎肯定在两年内。”


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?

除了上面提到的出色成绩之外,Grok4 还在 GPQA Diamond 测试上取得了最高分 87% ,打破了此前由 Gemini Pro 领先的 84% 得分。


在 ARC AGI 上也达到新的 SOTA,是 Claude Opus 4 的两倍。


从下图中可以看到,Grok4 还在AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(在线算法竞赛)、HMMT25(高中生团队数学竞赛)和 USAMO25(美国顶级高中生数学竞赛)中均设立了最新的 SOTA 分数。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


并且在 Artificial Analysis 的全套基准测试中也是凭借着 73 的得分超过 o3-pro 位居第一。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


Grok4 还在 ARC-AGI-2 上取得新的 SOTA,达到了 15.9% 。


这几乎是之前的 SOTA 得分的两倍,并超越了当前 Kaggle 竞赛的最高分。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


还有一点值得关注的是随着训练和计算资源的扩展,Grok4 在性能上的强势增长,主要专注于推理和强化学习。


Grok4 用于 RL 的计算资源几乎与预训练时使用的相同。Grok 4 使用的算力远超其他任何模型的 10× 以上,是 Grok-2 的 100 倍,是 Grok-3 的 10 倍,一共使用了 10 万块 H100 GPU。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


实际效果展示


除了光拿出数据,发布会上也展示了一些 Grok4 使用的实际例子。


例如:“使用HTML生成一个精美的、30秒长的柔和网格动画,用于可视化两个碰撞黑洞所产生的引力波,并包含“铃振”(ringdown)阶段。最大化物理准确性,并对(黑洞的)运动轨迹进行合理性检查。”,看起来效果还不错。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


还有更多 demo 展示,例如现场解数学题。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


或者根据 X 上的帖子提供一份 HLE 分数公布变更的时间线等,这里就不一一列举了,指路完整版视频链接,感兴趣的小伙伴可以看看:

https://x.com/i/events/1942716886258528256


发布会还展示了 Danny Limanseta 仅在 4 小时内使用 Grok4 创建的一款 FPS 射击游戏。


并且表示 Grok 不仅能够制作游戏,还能实际游玩并理解什么样的游戏是优秀的,以及如何让游戏变得更好。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


现场还展示了 Grok4 的语音模式,并且本场直播开场语正是使用 Grok4 语音模式中的一个声音说的。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


Grok4 语音模式的亮点首先是更加流畅和快速,延迟被减半。可供选择的声音个数也升至 5 个。


还有语音出色的自然感,当场让 Eve (Grok4 其中一个语音)耳语来让用户平静下来,感觉还不错,有点哄睡 ASMR 的感觉了。并且不会打断对话,更加像人类。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


现场还整活让它唱了一段零糖可乐的歌剧,不仅是马斯克,屏幕前的我也听乐了。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


不得不说, Grok4 发布会上的表现还不错,各项分数也很亮眼,但对于用户来说,实际上手的体验感受才是最重要的。


秉持着坚决不被割韭菜的原则,我们也找来了网友们第一时间的实测,看看它到底值不值这个价。


先上结论:除非是想体验效果,否则不推荐订阅。


二、实测效果


首先是考验大模型前端 UI 设计的天气卡片问题,使用如下 prompt:


你是一位就职于苹果公司的顶级前端工程师,请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:风力(如:飘动的云朵、摇曳的树木或风线)降雨(如:下落的雨滴、形成的水注)晴天(如:闪耀的光线、明亮的背景)下雪(如:飘落的雪花、积雪效果)。要求有常见的多种天气以外还要有冰雹、大雾、台风这三种。所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。将前端显示效果优化得更精致流畅,打造出价值200000元/月的精品天气应用既视感。


Grok4 的输出:


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


你没看错,就是什么都没有。


我们再来看看使用上面相同 prompt,其他家输出的结果。


Gemini 2.5 pro:


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


Claude opus 4:


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


o3 pro:


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


我们也找来了其他使用 Grok4 成功渲染出天气卡片的结果,但是效果都有些抽象。


比如这样的。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


还有这样的。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


谁来了不说一句这方面还得是 Claude 。


除了抽象的天气卡片,更抽象的还有 Grok4 的思考过程。


深度思考下全是 thinking,没有具体的思考内容,还不给设置 reasoning_effort 。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


这不是个例,看得出来 Grok4 思考的很用力了。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


不仅如此,先不谈编程、数学推理那些“高大上”的能力,就连日常的对话问答、文章写作方面,Grok4 也只是表现平平。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


再来看看同一个问题 Gemini 2.5 pro 的结果。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


还有马斯克之前称 Grok4 是有幽默感的大模型,网友也是让它写了几个原创笑话。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


笑点因人而异,好不好笑大家就自行体会了。


三、最后一句


整体看下来,Grok4 的表现并没有达到大家预期的。虽然 Grok4 跑分第一名,但是用户实际上手体验却差点意思,价格还贵,没有特殊需求的用户很难回本。


实测翻车?!刷爆高难度榜单的Grok4到底怎么样?


或许它的推理能力真的强到快要创造新的物理学,可对多数普通用户来说,使用更频繁的那些基础能力过硬才是首要条件。


这也让人怀念起当初在性能上真有代差,而且还便宜的 R1。


R2 到底什么时候才端上来啊喂?


文章来自于微信公众号“JackCui”。


关键词: AI , AI产品测评 , Grok4 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales