Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
8496点击    2025-11-22 15:29

谷歌、OpenAI 那边一个接一个上新,整个 AI 圈都卷得飞起。


与此同时,Meta 也没闲着,先是 SAM 3、接着 SAM 3D,现在干脆直接把生成式 AI 的玩法往前踹了一大步:不光是画张图、生成一段视频,而是一句话就能生成一个能走进去的 3D 世界。


不是简简单单的场景截图,而是真・可漫游、可互动、能四处乱逛的那种。

你只需输入一句简单的提示词,比如「卡通风格的中世纪村庄」或「火星上的科幻基地站」,几分钟内就能生成一个可交互的 3D 世界。这个世界在风格和主题上是完全一致的,你的火星基地里不会出现中世纪现代建筑,你的中世纪村庄里也不会突然冒出维多利亚风格的家具。


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


中世纪村庄


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


赛博朋克贫民窟


同时,生成的 3D 世界还是结构合理的:不同区域之间会以可通行的方式连接,让角色可以在世界中自由漫步,而不会走着走着被卡住。


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


中世纪城镇广场,有石板路、木屋、钟楼和中央教堂。


这就是 Meta 最新公布的一项突破性研究 WorldGen:只需一段文本提示就能生成真正可导航、可交互、可以走进去探索的完整 3D 世界。


几年前,这听上去可能像是科幻小说,但随着生成式 AI 技术的快速发展,人们已经可以根据一句文本或一张图片生成令人惊叹的短片。


WorldGen 是一个先进的端到端系统,基于程序化推理、扩散模型 3D 生成技术,以及面向对象的场景分解组合而成。生成的结果是几何结构一致、视觉效果丰富、同时渲染高效的 3D 世界,可用于游戏、仿真和沉浸式社交环境。


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


一座沙漠小镇,拥有砂岩建筑、遮荫的市场遮阳篷和狭窄的小路。


方法介绍


现阶段,我们已经看到生成式 AI 在根据文本或图像提示生成高质量 3D 资产方面取得了巨大进展。WorldGen 将多项已有的 2D 与 3D 生成技术进行融合并创新:它首先生成 3D 场景的图像,然后再进行图像到 3D 的重建,主要包含以下阶段:


  • 规划:程序化 blockout 生成、导航网格提取、参考图像生成;
  • 重建:图像到 3D 的基础模型、基于导航网格的场景生成、初始场景纹理生成;
  • 分解:使用加速版 AutoPartGen 进行场景部件提取、场景分解数据整理;
  • 精修:图像增强、网格 - 精修模型、纹理生成模型。


其他已有的方法虽然也能从图像或文本提示生成可交互的三维世界,但它们通常从单一指定的视角出发向外扩展,而不是基于全局参考图像或完整布局进行生成。


这样的方式意味着:在中心视角附近,几何结构和纹理质量尚可,但一旦你向外移动 3 到 5 米,质量就会迅速下降。


相比之下,WorldGen 能够生成覆盖 50 x 50 米的完整纹理化场景,并在整个区域中保持风格与几何的一致性。


未来,Meta 还计划支持更大规模的世界生成。


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


古代寺庙群,以红塔式建筑为特色,有层叠的屋顶、石阶和庭院。


Meta 表示,这项工作目前仍处于研究阶段,尚未对开发者开放,但 WorldGen 生成的内容已经可以直接兼容 Unity、Unreal 等主流游戏引擎,无需额外的转换流程或渲染流程。


不过,Meta 也强调,尽管 WorldGen 在生成多样化、可交互、可导航的世界方面取得了重要进展,但当前模型仍存在一些改进的地方。例如,未来版本将支持更大空间规模,并降低生成延迟。


在传统工作流中,三维内容的制作往往既复杂又耗时,对许多人来说甚至难以踏入。WorldGen 的出现让情况开始发生变化,它展示了跨行业节省时间和成本的巨大潜力,并让普通人也有机会参与到 3D 世界构建中来,推动内容创作真正走向大众化。这也呼应了 Meta 在 Connect 大会上描绘的愿景:未来,每个人都能在无需编写任何代码的情况下,从一个简单的文字提示开始,创造出属于自己的完整虚拟世界。


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


一个以万圣节为主题的村庄,有歪斜的黑色屋顶房屋、发光的窗户、南瓜和扭曲的树。


与此同时,Meta 还放出了相关论文,感兴趣的读者可以阅读论文,了解更多内容:


Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城


  • 论文标题:WorldGen: From Text to Traversable and Interactive 3D Worlds
  • 论文地址:https://scontent-sea1-1.xx.fbcdn.net/v/t39.2365-6/586830145_834419405978070_3937417229378696315_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=d65b48&_nc_ohc=KjIRxfgDxfAQ7kNvwEUbcRV&_nc_oc=AdkyeBfeCoX5Y2sIxaeN_wzTJOo3BvhPhYFDsCuN2XdGW60PPHW5-cPauGTZ7kjcmN6LymJ7ZXAcfyjoy5mlGra1&_nc_zt=14&_nc_ht=scontent-sea1-1.xx&_nc_gid=3tX278lz5_LpF7k9qDsxvQ&oh=00_Afjv87PRMbBTzjkRBOHUekl_YD8a0iIEvaJu8RrnvKr7vg&oe=6926DA80


与其他新兴技术的对比:WorldGen 的优势


前段时间,斯坦福大学教授李飞飞的创业公司 World Labs 推出了 Marble ,该系统使用的是 Gaussian Splatting 技术,能实现高度写实的视觉效果。虽然画面非常逼真,但这类基于 splat 的场景存在一个明显短板:一旦摄像机从中心视角稍微移动,仅仅 3 到 5 米,图像质量就会迅速下降。


相比之下,Meta 选择以网格(mesh)为基础输出几何结构,使 WorldGen 成为一个真正面向功能开发的工具,而不仅是用于渲染视觉内容。这种结构原生支持物理模拟、碰撞检测和导航,对于任何交互式软件而言,这些功能都是不可或缺的。也因此,WorldGen 能生成面积达到 50×50 米的完整场景,并且在整个区域内保持几何的一致性与完整性。


对技术或创意领域的从业者来说,WorldGen 的出现意味着 3D 工作流程将迎来新的可能性。


与此同时,技术美术和关卡设计师的工作方式也将发生转变,从手动摆放每一个顶点,转向使用提示词驱动 AI 并对其输出进行筛选与编辑。


当然,尽管 WorldGen 输出的场景可以无缝接入现有游戏引擎(如 Unity 和 Unreal),但生成过程本身对算力的需求依然很高。因此,开发者也需评估本地渲染和云端渲染的能力,以决定最合适的部署方式。


参考链接:


https://www.meta.com/blog/worldgen-3d-world-generation-reality-labs-generative-ai-research/


https://www.artificialintelligence-news.com/news/worldgen-meta-generative-ai-for-interactive-3d-worlds/


文章来自于微信公众号 “机器之心”,作者 “机器之心”

关键词: AI新闻 , WorldGen , AI 3D , Meta , SAM 3D
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0