英伟达让AI仅靠「看直播」就学会了通用游戏操作。虚拟世界已成为物理智能的黑客帝国,看4万小时直播学会几乎所有游戏!
众所周知,特斯拉的FSD之所以被奉为神作,核心就在于它那套「端到端」的硬核逻辑。
车子不再依赖死板的高精地图,也不依赖传感器,而是像个老司机一样:
眼睛看着路(视觉输入),脚下直接踩油门、手里直接打方向(行动输出)。

那么问题来了,如果把这套逻辑搬到游戏场景里让AI学习,会发生什么?
道理完全是一样的!以前的AI玩游戏,还得靠读后台数据、甚至得「开挂」才能知道敌人在哪。
但真正的人类玩家是咋样的?
是我们盯着屏幕上的像素(视觉),大脑一转,手指直接噼里啪啦敲键盘、按手柄(操作)。
比如Faker的切屏,属于人类的顶尖反应速度了。

从画面直接到鼠标键盘的操作,这就是游戏界的「FSD」。
英伟达最近就整了这么个狠活!
发布了一个叫NitroGen的新模型,它完全不按套路出牌。

项目地址:
https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf
这个模型不是靠读游戏代码长大的,而是蹲在YouTube和Twitch上:
硬生生「看」了4万个小时带有手柄画面的游戏实况!

它就像个极其好学的「云玩家」,通过观察人类怎么操作,直接学会了在各种游戏里该怎么走位、怎么平A。
不管是RPG还是横版过关游戏,它都能拿捏。

你可能会问:光看视频咋学会操作?我又不知道主播按了哪个键。
这就不得不佩服英伟达研究员的脑洞了。
他们专门挖掘了YouTube和Twitch上那些带有「控制器叠加画面」的视频。
对,就是那种主播在屏幕角落放个小手柄,按哪个键,画面上的手柄也会跟着亮的视频。

NitroGen就盯着这4万个小时的视频素材,一边看游戏画面里发生了什么(比如林克挥了一剑),一边看角落里的手柄哪个键亮了(比如按了X键)。
这就像是一个想学吉他的人,不看乐谱,而是把几万场演唱会视频里吉他手的指法特写全看了一遍,硬生生把「听觉」和「手指动作」给对应上了!
也只有AI能干这活了。
以前的游戏AI往往是「专才」,会玩《王者荣耀》的绝对不会玩《超级马里奥》。
但NitroGen主打的就是一个「通才」。
它学习了超过1000款不同的游戏。
这可能意味着它练就了一种「游戏直觉」!

就像我们人类玩游戏一样,你只要玩过魂游,比如《艾尔登法环》之类的,再上手一款新的动作游戏《黑神话:悟空》,哪怕没见过,你也大概知道左摇杆是跑,右边按键是打。
测试数据显示,当把NitroGen丢进一款它从未见过的新游戏里时,它的表现比那些从零训练的模型强了52%。
不管是动作RPG、平台跳跃,还是Roguelike,它都能迅速上手。

英伟达这一波操作,仅仅是为了造一个更强的NPC陪我们玩吗?
格局小了,英伟达的野心更大!
先来看看最近AI在游戏中的表现。
The Decoder最新的研究发现,现在的AI甚至已经开始具备复杂的推理能力。

研究者通过一个《塞尔达传说》中的经典变色谜题,对当前顶尖大模型的推理能力进行了一场别开生面的「压力测试」。
测试要求模型在不联网的情况下,仅凭截图规划出六步操作以解开谜题。
结果显示,模型间的差距一目了然:
作者认为:这种强大的推理能力结合英伟达NitroGen等自主智能体技术,预示着:
人类撰写游戏攻略和软件文档的时代即将终结,AI将彻底改变我们获取指导信息的方式。
比如在《塞尔达传说》里那种需要预判6步以上的变色谜题,现在的AI模型已经能像解数学题一样解开了。
而NitroGen的潜力更进一步,它不仅能玩,还能记录和复盘。
想象一下,未来AI玩一遍游戏,顺手就能把「白金攻略」给你写出来,甚至把游戏里的Bug自动修了,这还要啥自行车?
(感觉游戏科学的《黑神话:钟馗》大概率要上AI技术了)

但老黄真正的野心,其实藏在代码里:NitroGen是基于英伟达的GR00T(机器人基础模型)构建的。

这波野心很大!
虚拟世界,其实就是物理世界最高效的「练兵场」。
英伟达正在用游戏里的千万次试错,为未来走进我们家里的机器人,打造一个能应对一切混乱的「通用大脑」。
或许有一天,当你感叹队友操作太神的时候,屏幕对面坐着的,真的可能不是人。

而是一个真的机器人拿着手柄在和你打游戏!
视频游戏已经从单纯的AI测试基准,演变为物理智能的训练场。
这不仅是游戏AI的胜利,更是机器人技术跨越「莫拉维克悖论」的关键转折点。
在过去十年中,人工智能领域经历了从感知智能到认知智能的飞跃。
然而,尽管大语言模型能够撰写诗歌、编写代码甚至通过律师资格考试,它们在面对物理世界时却往往显得笨拙不堪。
一个能通过图灵测试的AI,可能无法控制机械臂完成最简单的「把杯子放进洗碗机」的任务。
这就是著名的「莫拉维克悖论」:对计算机而言,实现逻辑推理等高阶智慧只需要很少的计算能力,而实现感知、运动等低阶智慧却需要巨大的计算资源。
具身智能旨在解决这一问题,它要求智能体不仅要「思考」,还要拥有「身体」,能够与环境进行物理交互。
长期以来,具身智能的发展受限于两大瓶颈:
互联网上充斥着万亿级别的文本数据,却缺乏同等规模的、带有精确动作标签的机器人数据。
传统的强化学习(RL)算法通常只能在特定的环境(如围棋棋盘或特定的工厂流水线)中表现优异,一旦环境发生微小变化,模型就会失效。
2025年,我们看到了一条解决上述瓶颈的全新路径:利用视频游戏作为通向物理世界的桥梁。
游戏提供了丰富的视觉环境、复杂的物理规则和明确的任务目标,且天然具备数字化、可扩展的特性。更重要的是,游戏世界中的「感知-决策-行动」闭环与物理机器人完全同构。
具身智能体要在复杂且不可预测的现实世界中生存,仅靠条件反射式的反应是不够的。
它必须具备深度的推理与规划能力。
塞尔达变色球谜题的挑战
该谜题源自《塞尔达传说》系列游戏,规则看似简单实则极其考验逻辑:
一个由红色和蓝色球体组成的网格。
点击一个球体,会改变其自身以及上下左右相邻球体的颜色(红变蓝,蓝变红)。
通过一系列点击,将所有球体变为蓝色。
这一谜题的本质是一个约束满足问题或图论问题。
其复杂性在于状态空间的组合爆炸和操作的不可逆性。
玩家不能只关注当前这一步的收益,必须预判未来几步的状态变化。
这需要极强的前瞻性规划能力,即在脑海中构建一棵「决策树」,并推演不同分支的结果,这正是人类认知心理学中定义的「系统2」思维——慢速、从容、有逻辑的思考。

根据The Decoder的深度评测:
当前最顶尖的AI模型在面对这一挑战时表现出了显著的代际差异,这直接反映了它们作为具身智能体「大脑」的潜力。
GPT-5.2-Thinking的成功不仅在于它解出了谜题,更在于它展示了一种算法内化的趋势。
例如,当机器人面对一个堆满杂物的桌子时,它能够像解决塞尔达谜题一样,在「脑海」中预演:「如果我先拿底下的书,上面的杯子会倒;所以我必须先移开杯子。」
这种能力是实现从「自动化机器」向「自主智能体」跨越的关键。
如果说GPT-5.2解决了「想什么」,那么英伟达的NitroGen模型则解决了「怎么做」。
NitroGen的发布标志着机器人学习进入了「ImageNet时刻」,利用互联网规模的数据来训练通用的运动控制策略。
NitroGen团队提出了一种极其巧妙的「数据挖掘」策略:利用游戏直播中常见的输入叠加层。
这一策略的精妙之处在于,它将原本「无监督」的视频数据瞬间转化为了「有监督」的「视觉-动作」对。
英伟达利用这一技术,构建了包含40,000小时、覆盖1000多种游戏的NitroGen数据集。
这在机器人学习领域是前所未有的规模。
在电影《黑客帝国》中,尼奥在虚拟世界中学习功夫。

而对于机器人而言,世界模型(World Models)就是它们的「矩阵」。
若机器人能在极其逼真的虚拟世界中每秒经历数千次试错,其进化速度将远超物理时间的限制。
综合上述分析,通过游戏实现通用智能体的路径不仅可行,而且已经初具雏形。
这条路径可以概括为:「在游戏中学会控制,在仿真中学会物理,在现实中学会适应。」
未来的通用智能体必然是分层架构的:
类似GPT-5.2的推理模型,负责处理长程规划、逻辑谜题和人类指令理解。
类似NitroGen的通用策略模型,负责将高层指令翻译成具体的运动轨迹,利用海量视频数据获得的「运动直觉」。
基于GR00T的高频全身控制器,负责具体的电机力矩输出和平衡维持。

尽管前景光明,但仍有几个关键问题亟待解决:
游戏和视频主要是视觉和听觉的,缺乏触觉。NitroGen学不到「物体有多重」或「表面有多滑」。
目前的视觉-动作模型在粗糙动作(如走路、抓取大物体)上表现良好,但在需要毫米级精度的操作(如穿针引线、精密装配)上仍有不足。这可能需要更高分辨率的视觉编码器或专门的精细操作策略。
当机器人具备了自主规划能力,如何确保其目标函数与人类价值观对齐?「洗碗」指令不应导致机器人「打破盘子以最快速度清空洗碗池」。
游戏不再仅仅是娱乐,它们是人类为AI构建的摇篮。
在这个摇篮里,AI学会了规划(Zelda),学会了控制(NitroGen),学会了世界的物理法则(Cosmos)。
当它们走出摇篮,进入Project GR00T的躯体时,我们将见证真正的物理智能的诞生。
这不仅是技术的胜利,更是人类通过创造虚拟世界来反哺现实世界的各种可能性的终极体现。
参考资料:
https://the-decoder.com/a-zelda-puzzle-proves-ai-models-can-crack-gaming-riddles-that-require-thinking-six-moves-ahead/
https://the-decoder.com/nvidia-wants-to-create-universal-ai-agents-for-all-worlds-with-nitrogen/
文章来自于“新智元”,作者 “定慧”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales