:::
什么是游戏?
这个问题比听起来要难。画面逼真不算,操控流畅不算,连开放世界都不算——你还需要有目标,有规则,有「我死了」和「我赢了」的判断。

Alberto Hojel 在 X 上发布了这篇研究文章,245K 浏览量
Roblox 研究员 Alberto Hojel 最近发了一篇长文,开头就问了这个问题:视频世界模型什么时候才算"好玩"?
他们花了相当长时间摸索,最后的答案是:光靠模型远远不够,你还需要一张「游戏卡带」。
:::
Roblox 训练了一个 140 亿参数的视频世界模型,24fps 实时生成,能根据你的 WASD 键盘操作实时改变画面。
效果很惊人。从纽约街头切换到喜马拉雅雪山,再切到水下场景,AI 全程实时渲染,物理效果和光照也算自然。
模型把控制拆成四个维度:操作、世界、角色、动态。我觉得这个设计挺有必要——你想换个场景,不用把角色和物理规则一起打翻重来,单独改那一层就够了。

Roblox Game Cartridges — 六种不同风格的世界场景实时生成
但他们把这个模型交给公司内部的游戏开发者试用后,问题马上出现了。
玩家不知道自己该干什么。
画面有了。操控有了。世界也有了。但没有血量,没有任务,没有「收集了三个能量罐就能升级」的逻辑。AI 生成的世界是一片美丽的荒野——不是一款游戏。
:::
他们回头看了游戏史上最早的那批游戏——Zork、Oregon Trail,文字冒险游戏。
「这些游戏几乎没有画面,但有无比丰富的世界和游戏逻辑。它们的本质,是处理文字输入、输出下一个世界状态的简单状态机。」
这个类比帮他们想清楚了一件事:游戏的核心是状态管理,不是画面渲染。AI 视频模型擅长渲染,但它不负责记住你捡了多少颗钻石,也不知道你的血量掉到了多少。
所以问题变成了:怎么让 AI 负责画面,让代码负责逻辑?
:::
答案叫 Game Cartridge(游戏卡带)——一套跑在 Roblox 游戏引擎里的可编程代码框架。

基础视频世界模型循环:文字提示词 + 玩家操作 → 视频模型 → 下一帧画面
具体怎么跑?开发者用 Luau 代码写一个状态机——血量多少、背包里有什么、任务进度到哪了,全在里面。一旦触发条件满足,比如捡到了能量罐,引擎就把当前状态打包成文字提示词,喂给视频模型,模型负责画出下一帧。代码管账,AI 管画面,各司其职。

Game Cartridge 完整架构:游戏引擎管逻辑,视频模型管画面,VLM 负责感知
但有一个难题:代码怎么知道 AI 生成的画面里发生了什么?玩家到底有没有捡到那个能量罐?
他们引入了第三个角色:VLM(视觉语言模型)作为实时观察员。开发者在代码里定义「视觉触发条件」,比如「玩家是否捡起了能量罐?」,VLM 持续盯着视频模型生成的每一帧,一旦条件满足就回调通知游戏引擎。
逻辑闭环了:代码管状态,AI 管画面,VLM 负责把两者连起来。
他们也试过更简单的版本——直接让 VLM 写提示词回传给视频模型,完全绕过 Roblox 引擎。结果不如预期。原因直接:代码能存变量、跑确定性逻辑,这些 VLM 做不到。
:::

完整系统循环:VLM 读取视觉触发条件,回调更新游戏引擎状态
基于这套系统,他们的内部游戏开发者做出了一款叫 Worlds Research Station 的原型游戏,并在本周短暂对外开放。
玩法是协作模式:一名玩家在 AI 实时生成的世界里探索,另一组玩家在「任务控制中心」远程操控场景。探索者需要在这片动态生成的世界里寻找能量罐补充血量,活下去。

游戏实际运行画面:AI 实时生成的雪山场景
一位参与开发的工程师说:
「做这个游戏要学会两件事:第一是怎么用 AI 模型本身创造视觉效果,组合提示词构建世界;第二是怎么在模型和 Roblox 游戏引擎之间搭起那座桥。」
这已经很像正常的游戏开发流程了。
:::
他们也没掩饰局限。坦白说,有两个问题现在确实还没解。
空间控制不够精准。「在角色前方出现一个能量罐」,玩家转身走开,AI 还是在前方不断生成能量罐——它根本不懂你已经转向了。三维空间的理解,还差得远。

水下世界场景:AI 生成的光影效果自然,但空间定位仍是挑战
还有一个更微妙的问题:角色会「漂移」。长时间运行后,滑动窗口的 KV 缓存撑不住角色的外貌一致性。转身再回来,脸可能就不太一样了。
这两个问题倒也不意外——视频世界模型本来就不是为了做游戏而设计的。论文里有个细节让我觉得有意思:他们发现代码框架反过来也能成为评测工具。用游戏任务来衡量模型在连贯性、可控性方面的进步,比单纯看 FVD 分数更直观,也更接近真实用途。
游戏,成了世界模型的测试场。
:::
Roblox 的判断是:随着视频世界模型越来越强,游戏引擎的角色会逐渐变化——从管理整个游戏状态,慢慢变成只负责抽象逻辑,把视觉渲染交给 AI。

奇幻世界场景:骑乘飞龙,AI 实时渲染翅膀拍打的物理效果
他们用了一个「卡带」的比喻,非常贴切。卡带定义了这段体验里的规则和故事,但世界本身是由 AI 实时画出来的。换一张卡带,就是另一个游戏——同一个模型,完全不同的体验。
我还没想清楚这对不对。「代码管逻辑,AI 管画面」这个分工听起来很整洁,但整洁的分工通常是暂时的——历史上每一次「这部分交给机器,那部分留给人」的约定,最后都被重新谈判过。
让我真正不确定的不是技术问题。而是:当画面彻底交给 AI 之后,一个游戏开发者还剩下什么?是「写卡带的人」——也就是规则设计师?还是会变成:连规则本身,也慢慢被 AI 从玩家行为数据里归纳出来,开发者只是在旁边点头确认?
但有一件事我觉得可以确定:Roblox 用「卡带」这个词,不只是在向老游戏人致敬。他们在暗示一件事——这套系统的价值,将来不在于那个 AI 模型有多强,而在于有多少张卡带被写出来。模型可以被竞争对手复制,但一百万个开发者写的一百万张卡带,不能。
数据来源:
Alberto Hojel (@AlbyHojel),X Article,2026年5月 · https://x.com/AlbyHojel/status/2057193508822536459
文章来自于微信公众号 “深思SenseAI”,作者 “深思SenseAI”