GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
7062点击    2025-08-26 19:54

又是一场酣畅淋漓的战斗!


宝可梦主播GPT-5在直播间鏖战一小时,成功击败赤爷(Red),公屏瞬间刷满GG(Good Game)。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


根据推特博主Clad3815的最新战报,GPT-5仅用9517步就放倒了赤爷,通关《宝可梦水晶》。


相比之下,o3则用了27040步,所用步数几乎是GPT-5的三倍。


换句话说,GPT-5不吃不喝连肝一周多一点(202小时)就能通关的《宝可梦水晶》,换成o3需要近一个月。


如果把视角拉回到普通人类玩家身上,通关《宝可梦水晶》的时间通常在5天左右(每天8小时)。


基于此,不少玩家已经开始留言,请继续征战下一代宝可梦!


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


那么,GPT-5是怎么做到的?


赤爷不语,GPT-5登顶宝可梦


在《宝可梦水晶》的剧情中,玩家从小镇出发,选择宝可梦,挑战道馆馆主、收集徽章,阻止火箭队的阴谋,最终迎战最强训练家——赤红(《宝可梦红/蓝》的主角)


而这次,GPT-5就化身小智,成为了新的挑战者——并一举击败赤爷,登顶宝可梦。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


除了我们开头提到的,GPT-5仅用了o3三分之一的步数就实现了通关,在《宝可梦水晶》全部的主线任务中,GPT-5也是按照剧情一路平推,效率远超o3好几倍。


(注:在《宝可梦水晶》中,玩家击败boss后仍然可以自由探索收集宝可梦,所以直播还开着。)


例如,在收集全部16枚游戏徽章的主线中,GPT-5仅用了9205步,而o3则耗费了22334步。


更惊人的是,从收集完所有徽章到战胜赤爷,o3还需要近5000步,而GPT-5仅用了312步,加速了十几倍。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


同样的,在四天王和冠军的剧情中,GPT-5也是仅花了7329步,而o3则用了两倍多的步数(18115步)。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


此外,在通关《宝可梦水晶》之前,GPT-5还被用来通关《宝可梦红》(游戏长度约为《宝可梦水晶》的一半)。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


赤爷不语,依旧是3倍的效率碾压。


对此,OpenAI的总裁兼联合创始人Greg Brockman也是亲自转发表示认可!


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


看到GPT-5的生猛表现,Clad老哥总结了这么几个原因:


  • 幻觉少,速度快:GPT-5的“幻觉”明显比o3少,这也是它速度提升的主要原因。


  • 空间推理强:o3经常试图硬穿墙,复杂区域容易迷路,而GPT-5能规划较长行动序列,几乎不出错,节省大量时间。


  • 目标规划更好:GPT-5在规划自身目标并执行上表现出色。


难道说,GPT-5模型能力的提升,在宝可梦这个舞台上才被完全体现出来?


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


(让子弹多飞一会儿)


不过,必须说明的是——让大模型玩宝可梦并不新鲜。


早在GPT-5之前,Google的Gemini和Anthropic的Claude就曾挑战过宝可梦。


其中,Gemini 2.5 Pro在今年五月的直播中,成功通关了《宝可梦蓝》,而Claude就比较惨了,至今仍被困于火箭队。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


那么问题来了:为啥AI大模型都如此偏爱这款上世纪的怀旧游戏呢?


宝可梦是新的benchmark?


要回答上面的问题,我们得先知道大模型是怎么玩宝可梦的。


一般来说,大模型玩宝可梦的基本步骤如下:


  • 提供一个系统提示,包含关于如何进行游戏的实质性建议


  • 提供带有额外信息叠加的游戏截图


  • 提供来自游戏内存(RAM)的关键信息


  • 提供保存文本以进行规划的能力


  • 提供一个工具,可以将文本指令转换为模拟器中的按键操作


  • 提供路径规划工具


  • 让上下文能够被自动清理并定期总结


  • 一个额外的用来“自我批评”的Critic/Guide模型。它们定期对主模型进行评审,并配备系统提示以帮助主模型避免常见失败模式。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


此外,大模型还会专门构建一个带标记的小地图,帮助其在游戏世界里定位,这类似于人类玩家在玩游戏时脑补地图的方式。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


综上,我们就获得了一个基本印象:在宝可梦游戏中,大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。


由此,宝可梦游戏就能作为衡量模型上下文能力、决策规划、界面控制能力的指标之一。


可惜的是,这场考试的报名费可并不便宜。


根据网友分析,在GPT-5通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》中,就花费了约3500美元(约2万五人民币)的GPT-5 API额度。其中,每个token的花费就达到了4块多人民币。


所以,除非你在OpenAI工作,否则想把宝可梦当作benchmark,还得先掂量一下钱包够不够厚。


GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!


参考链接


[1]https://x.com/Clad3815/status/1959856362059387098


[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s


[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data


[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close


文章来自于微信公众号“量子位”,作者是“henry”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales