刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界
8882点击    2026-01-30 09:13

来了来了!就在刚刚,预热了快半年的 Genie 3 ,终于!可以上手玩了!


刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


hh 激动的我没睡着,凌晨四点赶紧爬起来写文章了。


我们之前其实已经写过一篇文章,专门聊过「世界模型」这个概念,也解释过为什么我会对 Genie 3 特别看重。那篇更多是站在“理解”的角度,帮你把这条技术路线理清楚,知道它到底在干什么、为什么重要。


文章在这儿,如果你之前没看过,可以先扫一眼背景:https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q


但我也很理解很多朋友当时的一句话反馈——“不能试用,说再多有什么用?”


确实,AI 这种东西,最后还是得靠自己上手。你不进去走两步,很难真的知道它和别的东西差在哪。


所以,这不就来了。


刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界

刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


从今天开始,美国地区的 Google AI Ultra 订阅用户(18 岁以上),已经可以拿到 Project Genie 的访问权限。


体验地址:labs.google/fx/projectgenie


这里的“Project Genie”是一个基于 Genie 3、 Nano Banana Pro 和 Gemini 的原型 Web 应用。通过这个入口,你可以体验——


用 AI 实时生成世界。


点开 Project Genie 的界面,你做的第一件事,是想象,给即将生成的世界一个起点。


一个环境起点,一个角色。


刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


左边填写环境的 prompt,右边写主角的 prompt,还能上传参考图片。选择用第一人称还是第三人称。这不就是就是在捏一个世界的重生点吗?


这个阶段,官方把它叫做「World Sketching」,也就是打草稿。

刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


选择好你的重生点后,你现在就可以操控世界生成了。


Genie 3 的操控延时非常低,你能控制角色上下左右移动,改变方向,它会在你移动和交互的同时,实时生成前方的路径。


乍一看,好像有点像开放世界游戏?但是 Genie 地图本身是在跟着你的行为生长的。


你往前走,世界就往前长。你转身,它就给你生成转身后的景象。


你可以顺着现有的逻辑,把它往另一个方向发展。也可以直接基于别人已经生成好的世界,衍生出一个新的版本。


官方把这一步叫做「World Remixing」。


目前每个世界的生存时间大约是一分钟。


主要功能介绍差不多了,来看看 X 上大佬们的实测:


比如说,一个头顶鸭子的水獭飞行员,正走在一个明显受罗斯科抽象风格启发的机场里。

刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


迎面过来两个人,你可以控制角色侧身绕过去。也可以干脆把镜头拐到一边,去看墙上挂着的展示画。


仔细看细节,走路的人影会随着人物移动和方向变化而挪动。机场地面的反光做的也很不错,一看就很干净,没有那种 AI 生成常见的糊边、抖动、忽明忽暗的廉价感。


或者,给一只水獭穿上翼装,从空中飞过一座布满哥特式高塔的城市。

刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


这种场景本来就是 AI 最容易翻车的地方。建筑密度太高,尖塔、屋顶、窗洞一层叠一层,高速掠过时随便一动镜头,很多 AI 视频就开始抽风。结果 Genie 3 居然还能稳住,城市的结构没有散,镜头怎么飞都还能对得上,确实有点离谱。


再从毒药的视角,观看《哈利波特》的世界:


刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


非人的角度,墙面和走廊的纵深关系都能维持住,拐弯、前进、停下来的时候都挺连贯。


甚至,你可以无痛拥有大别墅。


刚刚,谷歌开放世界模型Genie 3,人人可以创造交互世界


第一视角低头一看,手上戴着名牌表;抬头就是泳池、大花园、宽得离谱的客厅。好爽。


从实测来看,不管是走路这种慢节奏,还是翼装飞行这种高速移动,Genie 3 都能把大环境兜住,没有穿模。


目前分辨率只有 720p(或者更低)帧率 24fps,没那么高,自己玩足够了。


写在最后。


回头看,当时我们一起讨论的那些抽象概念,终于有了一点可以被亲手验证的东西。


那时候 Genie 3 还停留在 demo 阶段,很多判断只能建立在理念和方向上,说服力有限。现在真的走进 Project Genie,在里面随便走走、飞飞、乱拐几下,再看它怎么接住你的动作,你会对这条路线多一点直观认识。


它现在还很粗糙。画面不算好,bug 也不少,控制有时还会让人出戏。(希望谷歌能快快更新,加大算力。)


但有一个感受是比较清晰的:这个世界并不是随便拼出来的,折腾多了,也不太容易立刻散掉。


这至少说明,世界模型这条路,已经开始从概念走向体验。


你准备好创造你的世界了吗?


文章来自于微信公众号 “夕小瑶科技说”,作者 “夕小瑶科技说”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0