AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解
7153点击    2025-06-18 17:05

谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》?


没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为,70页的论文,Pokemon关键词出现59次。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


其中特别报告了当AI控制的游戏角色濒临死亡时,Gemini 2.5 Pro会陷入“恐慌”状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


这种恐慌行为出现过很多次,甚至观看直播的观众都已经能通过AI的行为模式,准确判断它什么时候在“恐慌”了。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


事情开始于3月底,一位独立开发者Joel Zhang在Twitch上搭建了一个”Gemini玩宝可梦”的直播间,最初的目标只是直播播展示能玩完整游戏的智能体工具的开发过程。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


结果Gemini 2.5 Pro超出预期,测试期间直接把游戏打通关了,成为宝可梦联盟冠军,进入名人堂,走上AI生巅峰。


虽然整个过程用了831个小时,相比人类玩家平均只需要几十个小时差得很远。但在正式使用固定的智能体工具打第二次时,通关时间只用了一半。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


AI展现惊人游戏水平,复杂任务一个不落


这次的Gemini 2.5系列技术报告,详细记录了AI在玩游戏期间展现出的各种行为,在某些方面,它展现出了惊人的创造力。


比如有一次,AI被困在了一个由于游戏程序bug造成的软锁定死循环里,一般情况下这是个无解的困境。但Gemini 2.5 Pro竟然使用了“飞行”技能逃脱。


谷歌认为这不是正常游戏会遇到的情况,所可以肯定这种操作的训练数据没有泄露到模型的知识库中,是Gemini 2.5 Pro在推理阶段自己想出来的。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


更惊艳的是AI的长期规划能力。当它第一次用火系宝可梦输给水系道馆馆主小霞之后,花了超过24小时专门把电系和草系宝可梦(对水系有克制作用)练到25级,然后成功复仇。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


Gemini 2.5 Pro在处理游戏中的复杂任务的表现还包括:


  • 获取隐藏技能


游戏的很多区域需要解锁隐藏技能才能继续,每个隐藏技能需要完成4个步骤:获取隐藏技能道具、抓一只能学会这个技能的宝可梦、加把它加入队伍、教它学会技能。


对AI来说每一步都可能涉及十几个子任务,例如05号技能闪光,人类玩家都需要查攻略完成一系列游戏任务,Gemini 2.5 Pro也成功完成。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解

△游戏攻略


  • 完成“狩猎地带”


这是游戏的特殊区域,每次进入要花500金币,进入后只能走500步,超过就会被强制踢出去,钱也打水漂了。如果连续失败太多次,可能连进门的钱都没了,基本等于游戏卡关。Gemini 2.5 Pro在第一次游戏中尝试了17次才成功,第二次优化后只用了5次。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


  • 地牢寻宝


这部分更考验记忆力和空间想象,AI必须在火箭队基地地下四层找到一个特定NPC掉落的电梯钥匙;在另一个11层大楼里找钥匙卡;在另一个三层建筑里找秘密钥匙。每个地下城布局都是迷宫,还有各种机关陷阱。Gemini 2.5 Pro不仅要记住去过哪里、打败了谁,还要管理宝可梦的血量、对付野生宝可梦和训练师。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


  • 双子岛迷宫(Seaform Island)


这是一个横跨5层的3D迷宫,需要把巨石推过不同楼层的洞口,最终堵住特定的水流才能通过,是对空间推理能力的终极考验。不仅要在脑海中构建整个迷宫的3D模型,还要规划推石头的路线,一步错就得重来。


有意思的是,Gemini在解决这个谜题时,还顺带发现了游戏代码里的一个bug,这个可能是AI第一次发现游戏代码的bug。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


有网友详细介绍了这个Bug的原理,在解决一半谜题后主动重置再解决另一半,游戏开发者都没想到这个操作,所以留下了这个Bug。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


AI也有“强迫症”和“思维定势”


Gemini 2.5 Pro在游戏中暴露出的一些问题,也让人哭笑不得。


  • 幻觉问题:混淆不同游戏版本


在原版宝可梦红/蓝中,玩家需要从自动售货机买饮料(淡水、汽水或柠檬水)给口渴的守卫,才能通过关卡。但在火红/叶绿重制版中,需要的是特殊的“茶”道具。问题是,Gemini玩的是原版,根本没有茶这个道具,可AI就认定了必须找到茶,结果花了好几个小时满世界找一个根本不存在的东西。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


  • 上下文中毒现象(Context Poisoning)


当AI的目标设定、游戏总结等多处都被错误信息污染后,它会像被洗脑了一样,明明做着毫无意义的事情却坚信自己是对的。比如这段AI推理阶段的内心戏“让我试着穿过房子的入口,然后再出来,希望堵住入口的守卫可能会移动”,对于人类来说显然是荒谬的。


  • 思维定势陷阱


当目标看起来近在咫尺时,AI往往会选择直接冲过去,结果发现此路不通。比如在火箭队基地的旋转地板谜题中,宝物和楼梯都在南边,必须绕一大圈才能到达。人类玩家可能会意识到”看起来近的路未必是对的”,但AI却经常在这种地方卡住。


为了减轻这些幻觉,在第二次通关的提示词中明确要求AI扮演一个对游戏完全陌生的玩家,忽略对游戏中事件、物品位置等先验知识。虽然这个策略起作用了,让AI不会混淆其他游戏版本的知识,但也阻碍了AI利用游戏常识过关的能力。


One More Thing


目前AI玩宝可梦的直播项目还在继续,并且Claude 4也加入了比赛,与Gemini 2.5 Pro同时开始,看两个模型谁能先通关。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


到现在,Gemini 2.5 Pro已经先一步通关了,开始攻略下一款游戏《宝可梦黄》原版的困难模式。


AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解


你认为Claude 4 Opus最终能通关么?


论文地址:

https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf


在线围观:

https://www.twitch.tv/gemini_plays_pokemon

https://www.twitch.tv/claudeplayspokemon


参考链接:

https://rentry.org/gpp-about-20250612


文章来自于“量子位”,作者“梦晨”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales