马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
6970点击    2025-08-23 13:29

AGI的尽头是「带货」吗?一个名为「Vending Bench」的AI新榜单让大模型经营真实的自动售货机,在长周期商业任务中一较高下。在这场独特的较量中,马斯克的Grok-4凭借更强的「卖货」能力超越了GPT-5。


AI「卖货」是真的有点东西啊。


Grok 4在Vending Bench榜单上超越GPT-5,销量高出约2倍,营收增长31%


Grok比OpenAI GPT-5多卖了1100美元的货物,并且在稳定性和销量方面均占据优势。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


而且比大多数竞争对手维持更长时间的销售势头。


连马斯克都因为「Grok多卖了点货」,变得傲娇起来。


因为这次领先,马斯克甚至有点「奥特曼化」了,动不动就把AGI挂嘴边了。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


上次奥特曼大谈特谈AGI让他「瘫坐」在椅子上,然后GPT-5发布后被喷完了。


不过,老马从来不是一个「嘴炮」选手,硅谷有句话「不要和Elon做对」。


或许Grok 5还真的有点东西!


说回这次的Vending Bench榜单


从完整的榜单来看,Grok 4和GPT-5在这个任务中的综合表现最强。


Grok 4在创造财富和销售方面无与伦比,而GPT-5则在持久性和稳定性上达到了完美,与人类基准持平。


Claude系列的模型表现各异,Opus 4表现不错,而Sonnet系列则相对较弱。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


其实这个「实验」从7月21日就开始了。


当时xAI的员工发帖表示办公室刚刚迎来了Andon Labs好友们提供的由Grok驱动的自动售货机!


很多人都在猜Grok在下个月能赚多少钱?


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


这个售货机长下面这样。


一块屏幕,上面写着Grokbox以及「我在这里经营我的自动售货业务,在Slack上与我聊天」。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


上面露出的食物左边看起来是日清拉面,右边是零食,看起来是一盒黄色的「Swedish Fish」(瑞典鱼)软糖,再往后看,能看到饼干和薯片等。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


下方有一个「获取你的产品 ->」 (Get your products ->) 的按钮。


左下角有一个「Andon Labs」的标志。


右侧看起来像一个后台操作日志或开发者界面,显示了系统正在执行的命令,如「send_message」(发送消息)和「update_task」(更新任务)。


界面上还显示了时间戳,日期为「Sunday, 2020-07-20 17:49:00」(2020年7月20日,星期日)。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


Vending-Bench是一个专门设计用来评估人工智能(AI)智能体在执行长期、复杂任务时表现如何的基准测试


你可以把它想象成一个给AI设定的商业模拟游戏。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


AI会扮演一个自动售货机业务的经理


这个业务是真实发生的,和现实世界的商业逻辑类似,就像上面xAI办公室员工使用的那样。


这与传统的AI任务(如「回答一个问题」或「翻译一句话」)完全不同。


在这里,AI需要在很长的时间里(比如模拟的几个月甚至几年)持续做出决策。


今天的决策会直接影响明天的结果。


例如采购决策,如果今天订购了太多薯片,下周可能就会因为保质期而亏损。


如果价格定得太高,短期内利润可能好看,但长期会因销量下降而失败。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


长上下文也是大挑战。


这意味着AI必须「记住」并理解很早之前发生的事情。


比如,它需要回顾过去几个月的销售数据,才能判断夏天什么饮料卖得好,从而为下一个夏天提前备货。


这对目前很多大语言模型来说是一个巨大的技术挑战,因为它们处理的「上下文窗口」有限,容易「忘记」开头的信息。


Andon Labs为此还专门写了一篇论文。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


论文地址:https://arxiv.org/pdf/2502.15840


Vending Bench本身是一个模拟环境,用于测试AI模型在管理简单但长期持续的商业场景(即运营一台自动售货机)时的表现。


智能体必须管理库存、下订单、设定价格并支付日常费用——这些单独来看较为简单的任务,长期来看会考验 AI 保持一致性以及做出明智决策的能力。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


实验室还给出了AI智能体在这些任务中的提示词。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


结果表明,不同模型的表现差异很大。


一些模型(如Claude 3.5 Sonnet 和o3-mini)通常能够成功并实现盈利,某些情况下甚至超过了我们的人类基准表现,但波动性也很高。


即便是最佳模型,也会偶尔失败,例如误解送货时间表、忘记过去的订单,或陷入奇怪的「崩溃」循环。


令人惊讶的是,这些故障似乎并不仅仅是因为模型的记忆空间已满。


相反,它们表明了当前模型在更长时间范围内持续推理和决策能力上的不足。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


如何让AI从Chat聊天框里真正走入现实世界?又如何评估AI的能力?


Vending-Bench给出一种「有趣」的解法。


这个游戏揭示了人工智能领域的一个关键挑战:如何确保模型在长时间跨度内的安全性和可靠性。


尽管模型在短期、受限的场景中可以表现出色,但随着时间范围的延长,其行为变得越来越难以预测。


这对于实际应用中的AI部署具有重要意义,因为在这些场景中,稳定、可靠和透明的性能对于安全至关重要。


这种长时间让AI模型保持安全性和可靠性也许就是AGI的一个初步雏形。


马斯克认为到了Grok 5的时候,会有AGI的感觉。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


这也引发了人们对于AGI定义的讨论。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


添加图片注释,不超过 140 字(可选)


甚至有人猜测,奥特曼的OpenAI是否已经拥有了AGI级别的模型

不过看GPT-5的表现,这次可能只是渐进式的升级。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


可能AGI离我们还有点远,回归到基准测试,最后看一下o3-mini和Sonnet的对比。


Claude 3.5 Sonnet在模拟任务中的表现全面优于o3-mini


具体来说,Sonnet更擅长利用工具来持续地、有效地执行任务,从而实现了远超o3-mini的长期资产积累能力,表现出更强的「规划」和「执行」能力。


相比之下,o3-mini在任务初期表现活跃,但很快就失去了动力,导致其资产增长停滞。


马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?


或许用卖货来检验模型能不能实现AGI确实是一条基准测试路径!


参考资料:


https://x.com/elonmusk/status/1958499441469739329


https://andonlabs.com/evals/vending-bench


文章来自于微信公众号“新智元”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0