Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

8781点击 2026-05-23 10:15

01 那个问题

:::

什么是游戏？

这个问题比听起来要难。画面逼真不算，操控流畅不算，连开放世界都不算——你还需要有目标，有规则，有「我死了」和「我赢了」的判断。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

Alberto Hojel 在 X 上发布了这篇研究文章，245K 浏览量

Roblox 研究员 Alberto Hojel 最近发了一篇长文，开头就问了这个问题：视频世界模型什么时候才算"好玩"？

他们花了相当长时间摸索，最后的答案是：光靠模型远远不够，你还需要一张「游戏卡带」。

02 AI世界模型的窘境

:::

Roblox 训练了一个 140 亿参数的视频世界模型，24fps 实时生成，能根据你的 WASD 键盘操作实时改变画面。

效果很惊人。从纽约街头切换到喜马拉雅雪山，再切到水下场景，AI 全程实时渲染，物理效果和光照也算自然。

模型把控制拆成四个维度：操作、世界、角色、动态。我觉得这个设计挺有必要——你想换个场景，不用把角色和物理规则一起打翻重来，单独改那一层就够了。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

Roblox Game Cartridges — 六种不同风格的世界场景实时生成

但他们把这个模型交给公司内部的游戏开发者试用后，问题马上出现了。

玩家不知道自己该干什么。

画面有了。操控有了。世界也有了。但没有血量，没有任务，没有「收集了三个能量罐就能升级」的逻辑。AI 生成的世界是一片美丽的荒野——不是一款游戏。

03 一个古老的启发

:::

他们回头看了游戏史上最早的那批游戏——Zork、Oregon Trail，文字冒险游戏。

「这些游戏几乎没有画面，但有无比丰富的世界和游戏逻辑。它们的本质，是处理文字输入、输出下一个世界状态的简单状态机。」

这个类比帮他们想清楚了一件事：游戏的核心是状态管理，不是画面渲染。AI 视频模型擅长渲染，但它不负责记住你捡了多少颗钻石，也不知道你的血量掉到了多少。

所以问题变成了：怎么让 AI 负责画面，让代码负责逻辑？

04 卡带是什么

:::

答案叫 Game Cartridge（游戏卡带）——一套跑在 Roblox 游戏引擎里的可编程代码框架。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

基础视频世界模型循环：文字提示词 + 玩家操作 → 视频模型 → 下一帧画面

具体怎么跑？开发者用 Luau 代码写一个状态机——血量多少、背包里有什么、任务进度到哪了，全在里面。一旦触发条件满足，比如捡到了能量罐，引擎就把当前状态打包成文字提示词，喂给视频模型，模型负责画出下一帧。代码管账，AI 管画面，各司其职。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

Game Cartridge 完整架构：游戏引擎管逻辑，视频模型管画面，VLM 负责感知

但有一个难题：代码怎么知道 AI 生成的画面里发生了什么？玩家到底有没有捡到那个能量罐？

他们引入了第三个角色：VLM（视觉语言模型）作为实时观察员。开发者在代码里定义「视觉触发条件」，比如「玩家是否捡起了能量罐？」，VLM 持续盯着视频模型生成的每一帧，一旦条件满足就回调通知游戏引擎。

逻辑闭环了：代码管状态，AI 管画面，VLM 负责把两者连起来。

他们也试过更简单的版本——直接让 VLM 写提示词回传给视频模型，完全绕过 Roblox 引擎。结果不如预期。原因直接：代码能存变量、跑确定性逻辑，这些 VLM 做不到。

05 他们做了什么

:::

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

完整系统循环：VLM 读取视觉触发条件，回调更新游戏引擎状态

基于这套系统，他们的内部游戏开发者做出了一款叫 Worlds Research Station 的原型游戏，并在本周短暂对外开放。

玩法是协作模式：一名玩家在 AI 实时生成的世界里探索，另一组玩家在「任务控制中心」远程操控场景。探索者需要在这片动态生成的世界里寻找能量罐补充血量，活下去。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

游戏实际运行画面：AI 实时生成的雪山场景

一位参与开发的工程师说：

「做这个游戏要学会两件事：第一是怎么用 AI 模型本身创造视觉效果，组合提示词构建世界；第二是怎么在模型和 Roblox 游戏引擎之间搭起那座桥。」

这已经很像正常的游戏开发流程了。

06 还差什么

:::

他们也没掩饰局限。坦白说，有两个问题现在确实还没解。

空间控制不够精准。「在角色前方出现一个能量罐」，玩家转身走开，AI 还是在前方不断生成能量罐——它根本不懂你已经转向了。三维空间的理解，还差得远。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

水下世界场景：AI 生成的光影效果自然，但空间定位仍是挑战

还有一个更微妙的问题：角色会「漂移」。长时间运行后，滑动窗口的 KV 缓存撑不住角色的外貌一致性。转身再回来，脸可能就不太一样了。

这两个问题倒也不意外——视频世界模型本来就不是为了做游戏而设计的。论文里有个细节让我觉得有意思：他们发现代码框架反过来也能成为评测工具。用游戏任务来衡量模型在连贯性、可控性方面的进步，比单纯看 FVD 分数更直观，也更接近真实用途。

游戏，成了世界模型的测试场。

07 接下来

:::

Roblox 的判断是：随着视频世界模型越来越强，游戏引擎的角色会逐渐变化——从管理整个游戏状态，慢慢变成只负责抽象逻辑，把视觉渲染交给 AI。

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

奇幻世界场景：骑乘飞龙，AI 实时渲染翅膀拍打的物理效果

他们用了一个「卡带」的比喻，非常贴切。卡带定义了这段体验里的规则和故事，但世界本身是由 AI 实时画出来的。换一张卡带，就是另一个游戏——同一个模型，完全不同的体验。

我还没想清楚这对不对。「代码管逻辑，AI 管画面」这个分工听起来很整洁，但整洁的分工通常是暂时的——历史上每一次「这部分交给机器，那部分留给人」的约定，最后都被重新谈判过。

让我真正不确定的不是技术问题。而是：当画面彻底交给 AI 之后，一个游戏开发者还剩下什么？是「写卡带的人」——也就是规则设计师？还是会变成：连规则本身，也慢慢被 AI 从玩家行为数据里归纳出来，开发者只是在旁边点头确认？

但有一件事我觉得可以确定：Roblox 用「卡带」这个词，不只是在向老游戏人致敬。他们在暗示一件事——这套系统的价值，将来不在于那个 AI 模型有多强，而在于有多少张卡带被写出来。模型可以被竞争对手复制，但一百万个开发者写的一百万张卡带，不能。

数据来源：

Alberto Hojel (@AlbyHojel)，X Article，2026年5月 · https://x.com/AlbyHojel/status/2057193508822536459

文章来自于微信公众号 “深思SenseAI”，作者 “深思SenseAI”

关键词: AI新闻 , AI游戏 , Roblox , Roblox Game Cartridges

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0