o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

11253点击 2025-06-16 17:26

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏，也成大模型benchmark了。

o3-pro刚刚也挑战了这两款游戏，而且表现还都不错，直接突破了benchmark上限。

具体来说，benchmark中推箱子一共就只做到了被o3-pro突破的第六关；俄罗斯方块则是强行终止的结果，实际上o3-pro根本停不下来。

如果和前SOTA——o3比较，o3-pro的成绩也是直接翻倍。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

还有网友直言，比起大模型竞技场，这套标准才更适合做测试大模型的基准。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

经典小游戏成为新Benchmark

o3-pro挑战的这两个游戏，出自一套名为Lmgame的benchmark，顾名思义就是让大模型玩游戏。

o3-pro挑战的推箱子是从1989年的版本修改而来，在o3-pro之前，评估指标是游戏结束之前推动到目标位置的箱子总数。

不过这次o3-pro直接把所有关卡都通了，颇有种“得一百分是因为卷面只有一百分”的感觉。

但也不必担心，测试基准会动态更新，GItHub仓库中半个月前更新的游戏地图还只有四关，原版游戏更是有足足50多个关卡。

而在o3-pro挑战之前，表现最好的是o3，o4-mini紧随其后，再然后是DeepSeek-R1的最新版本（0528）。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

俄罗斯方块的得分计算方式则是将放置的方块数量与清除行数的10倍相加，直到游戏结束。

在o3-pro之前，表现最好的模型同样是o3，但后面R1和o4-mini的排名和推箱子相比交换了位置。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

不过在时间上，o3-pro的操作相当耗时，每走一步都要花上好几分钟。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

另外还有网友认为，如果让大模型编写程序而不是直接挑战，结果可能会更好。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

除了o3-pro玩的推箱子和俄罗斯方块，Lmgame中还包括四款游戏——2048、糖果传奇、马里奥兄弟和逆转裁判。

测试过程中通过一种迭代交互循环模式进行，游戏环境会持续地向大模型提供游戏状态，模型根据状态生成动作，这些动作随后在游戏环境中被执行，并根据执行结果计算奖励，接着游戏状态会更新以进行下一轮决策。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

同时还引入了智能体框架作为辅助工具，其中包含了感知、记忆、推理等模块；为了确保评估结果的稳定性和可比性，该模式还实施了提示标准化，以减少提示提示词带来的性能波动。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

根据游戏的特性和规则，具体到每个游戏的评价方式也有所区别：

超级马里奥兄弟：衡量标准是马里奥在所有关卡中累积的水平移动距离（以游戏单位计算），直到失去所有三条生命或完成最终关卡为止。
2048：评估指标是所有合并方块值的总和，记录直到棋盘停滞（连续十回合没有合并或棋盘变化）为止，取以2为底的对数后乘10即为最终分数。
糖果传奇：评价标准是在固定的 50 回合内消除的糖果总数。
逆转裁判：通过所有案件关卡中正确动作（例如提交证据、选择对话）的总计数来衡量，直到犯下五次错误决策（即生命值用尽）为止。

不过这些游戏表现的衡量标准当中，都没有将时间作为考量因素。

另外这套benchmark是开源的，有兴趣的话也可以自己下载下来对模型进行测试。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

还有网友留言说想看宝可梦的结果，团队表示马上安排。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

说到宝可梦，Gemini一直在全网直播当中进行挑战，并且在今年5月初成功通关了宝可梦·蓝。

当时谷歌CEO劈柴哥第一时间兴奋官宣，还放出了通关时刻的珍贵影像：

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

大模型竞技场顾问课题组出品

这个项目来自UCSD的Hao AI Lab，附属于USCD的机器学习系统实验室和NLP实验室，负责人是Halıcıoğlu数据科学研究所的助理教授张昊。

张昊本硕博分别就读于华南理工、上海交大和卡内基梅隆大学，之后到UC伯克利从事博士后研究，结束后加入UCSD。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

此外张昊也参与过创立LMSYS，并担任大模型竞技场顾问。

LMSYS是一个非营利组织，大模型竞技场和知名模型框架SGLang、vLLM都是由LMSYS研发的。

说回Hao AI Lab，该实验室创立了多个开源项目，其中GitHub星标数最多的是视频生成加速框架FastVideo，已获得1.5k星。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

Hao AI Lab还接受谷歌和英伟达的资助，今年4月英伟达给该实验室捐赠了一台DGX B200。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

参考链接：

https://x.com/haoailab/status/1933614723507106226

项目仓库：

https://github.com/lmgame-org/GamingAgent

榜单：

https://huggingface.co/spaces/lmgame/lmgame_bench

论文：

https://arxiv.org/abs/2505.15146

文章来自公众号“量子位”，作者“克雷西 ”

关键词: 模型训练 , AI玩游戏 , o3-pro , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales