构建一个工业级高仿真 3D 虚拟世界,需要投入多少时间与人力?如果仅需一段描述、一张草图,AI 便可快速自动生成 —— 你相信吗?
这并非科幻!最新论文提出的 LatticeWorld 框架让「指令直达场景」。该方法将大语言模型与工业级 3D 渲染引擎虚幻引擎 5(Unreal Engine 5,UE5)无缝融合,打通工业级程序化内容生成(PCG)管线,实现让虚拟世界「一句话成真」。创作效率提升 90 倍,为 3D 世界构建带来了革命性的突破。
在具身智能、自动驾驶、游戏开发和影视制作等领域,高质量的 3D 世界构建具有重大意义。
在具身智能和自动驾驶中,高质量的 3D 虚拟世界可作为仿真与算法训练的关键基础设施;在游戏与影视领域,高质量 3D 世界可支撑逼真与沉浸体验。然而,传统的 3D 场景制作主要依赖艺术家手工建模,不仅成本高昂、耗时巨大,还难以快速响应多样化的创作需求。
随着生成式 AI 的快速发展,自动化的 3D 世界生成逐渐成为可能,为行业提供了新的解决思路。然而,现有方法存在显著局限:基于神经渲染的方法缺乏交互能力,限制了实际应用;基于扩散模型的视觉生成方案虽能创建内容,但依赖大量视频训练数据,在复杂物理仿真与多智能体交互场景中仍有待进一步发展。
对此,另一类研究尝试将生成式模型与 3D 建模平台相集成,其中以 Blender 平台尤为常见。不过,Blender 在实时交互的支持和高保真的物理仿真方面原生能力依然有限,不能很好的满足工业级 3D 世界建模的现实需求。
为解决上述难题,研究团队提出了一个高效的多模态 3D 世界生成框架 LatticeWorld。该框架巧妙地将轻量级大语言模型(LLaMA-2-7B)与工业级渲染引擎(如 UE5)相结合,支持文本描述和视觉指令的多模态输入,能够生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界,并高效支持多智能体交互。相比传统手工化的工业流程,LatticeWorld 在保持高创作质量的同时,创作效率提升超过 90 倍,为 3D 世界构建带来了革命性的突破。
LatticeWorld 框架的核心思想是采用大语言模型处理场景布局和环境配置的生成,并构建多模态输入融合机制,可同时接收文本描述和视觉条件(如高度图或对应的草图)作为模型输入生成结构化的中间结果 (包括场景布局和 JSON 格式的场景与智能体参数),进一步通过定制的解码和转译流程中间结果映射为渲染引擎可理解的输入形式,最终由渲染引擎生成为可交互、可定制化的 3D 虚拟世界。
具体而言,本研究提出的 LatticeWorld 框架通过三个核心组件模块实现从自然语言描述与草图到完整 3D 场景的端到端生成:场景布局生成模块、环境配置生成模块、程序化渲染管线模块。
层次化场景属性框架:该方法建立了双层场景属性的层次化结构来精确建模场景特征。其中,粗粒度属性层控制全局环境特征,包括地形类型、季节变化、天气状况、时间设定和艺术风格等宏观参数。细粒度属性层则涵盖多种细节参数,如资产的材质、密度、位置、朝向等。这些细粒度参数的具体表现又会受到粗粒度属性的约束和影响,确保场景的语义一致性并有效减少复杂环境中的参数冲突。
智能体参数生成:该框架能够生成动态智能体配置信息,包括智能体类别分类 (人形机器人、机器狗、动物等)、数量、行为状态 (静止、移动等) 和空间位置等。这些参数生成受到场景属性约束和视觉条件限制,确保智能体的正确布置,例如水生动物仅出现在水体区域。
论文中构建了两个高质量的数据集来进行模型训练:(1)LoveDA,包含 8,236 个精心标注的郊区场景实例,通过对开源数据集 LoveDA 进行处理和增强后得到。该数据集的场景设定为固定高度。(2)Wild,包含 24,380 个多样化的荒野地形实例,通过采集卫星地图数据进行处理并增强后得到。该数据集的场景设定为可变高度,因此包含高度图和对应的草图。
1. 基于多模态指令的场景布局生成
文中将 LatticeWorld 与 GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1 和 Qwen2-VL-Max 等模型进行对比,在固定高度条件(仅文本描述)和可变高度条件(草图所对应转化成的高度图的视觉信号)下测试文本到布局的生成能力。结果显示 LatticeWorld 在生成准确布局方面表现更优。
2. 环境生成能力评估
下面的表格展示了 LatticeWorld 在不同多模态布局指令下的场景生成能力,通过 $$32\times 32$$ 的符号矩阵编码空间关系,结合文本和视觉输入进行场景生成,所有布局均在 UE5 中渲染。
3. 场景属性生成验证
在该实验中,固定场景布局并输入不同的环境描述,验证了 LatticeWorld 支持多样化的自然环境生成,并能够有效地依据文本描述调整整个场景的环境属性。
4. 生成动态交互式智能体环境
表格展示了基于 LatticeWorld 构建多智能体交互环境的能力。LatticeWorld 支持通过文本描述生成智能体参数配置(类型、数量、分布、行为等)。生成的 3D 世界中可预置了基于预定义规则的自主对抗行为,如在接近时进行追逐和攻击。
5. LatticeWorld 与专业艺术家对比
使用相同的布局和参数指令,对比专业艺术家手工创作和 LatticeWorld 生成的环境。工作量对比显示,LatticeWorld 将总制作时间从 55 天(手工)降低到不到 0.6 天,效率提升超过 90 倍,在生成多个环境时优势更加明显。
下方表格展示了两者在构建场景的效果上的对比,可见 LatticeWorld 保证了极高的生成质量。
未来该框架可继续扩展研究的方向包括:(1) 设计更多样化的对抗智能体行为策略,提升交互的丰富性;(2) 支持多玩家控制和 AI 算法策略;(3) 实现主智能体身体部位的精细化独立控制;(4) 扩充资产库,增加更多对象和交互元素以生成更加多样的虚拟世界。
文章来自于“机器之心”,作者“段颖琳、邹征夏、谷统伟”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/