挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

9326点击 2025-12-22 10:17

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型（World Model）」热潮之后，一个现实问题逐渐浮出水面：世界模型的可视化与交互，依然严重受限于底层 Web 端渲染能力。

Marble 所依赖的基于 WebGL 的 3D Gaussian Splatting (3DGS) 渲染器 SparkJS，让世界模型首次在浏览器中「跑起来」，但也暴露出明显瓶颈：大场景以及复杂场景下，CPU 排序成为性能天花板，动态场景与生成模型难以接入。

近日，开源项目 Visionary 给出了一个截然不同的答案：基于 WebGPU 与 ONNX，在浏览器中实现真正的动态 3DGS / 4DGS 实时渲染，并在多项测试中全面超越 SparkJS。

论文标题：Visionar y: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
技术报告：https://arxiv.org/abs/2512.08478
GitHub：https://github.com/Visionary-Laboratory/visionary
在线 Editor：https://visionary-laboratory.github.io/visionary/index_visionary.html

World Model 的「最后一公里」，

卡在 Web 端渲染

相比 Genie3 等视频生成范式的世界模型，其对算力的依赖极为庞大，距离在 Web 端实现高质量、实时运行仍有不小差距。反观神经渲染路线，尤其是 3D Gaussian Splatting，凭借其高效性，已经成为构建世界模型的重要表示形式。

3DGS 让高质量、实时的 3D 世界成为可能，但在实际落地中，仍存在明显断层：

桌面端 / 引擎方案（SIBR、Unity、Unreal）：性能强，但依赖沉重、部署复杂，难以传播与复现；

现有 Web 端方案（SparkJS、SuperSplat）：受限于 WebGL 管线，主要支持静态或预计算高斯，难以承载实时推理的动态 3DGS、Neural Avatar，更难引入生成式模型。

World Model 想要真正「被看见、被交互」，Web 端渲染底座成为关键瓶颈。

Visionary：不是 Viewer，

而是 World Model 的 Web 渲染基座

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

Visionary 的定位并非「又一个 3DGS 查看器」，而是一个面向 World Model / 空间智能的 Web 原生渲染基座 (Rendering Substrate)：

WebGPU 原生架构：将 GPU 计算与渲染真正带入浏览器，替代 WebGL；

ONNX 驱动的统一接口：将「每帧高斯生成 / 更新」抽象为标准化的模型契约；

动态友好设计：3DGS、4DGS、Neural Avatar 以及生成式后处理均可在线运行。

Visionary 的核心设计在于提出了 Gaussian Generator Contract：

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

将各类 3DGS、4DGS 及 Avatar 方法统一导出为 ONNX 标准，每帧仅需输入相机、时间等轻量控制信号，即可由 ONNX 输出完整的高斯属性缓冲。

这种设计使得渲染器不再受限于具体的算法细节，首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种 3DGS 变体以及接入生成式后处理（如风格化、增强）的能力。

性能实测：

全面超越 SparkJS

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

实验数据显示，在相同 3DGS 资源条件下，Visionary 的渲染效率显著优于当前主流 Web 端查看器。

在包含数百万高斯点的典型场景中，Visionary 将排序与预处理完全迁移至 GPU (WebGPU)，显著降低端到端延迟，而 SparkJS 的性能瓶颈主要集中在 CPU 排序阶段。

不止更快：

渲染正确性与画质同样重要

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

Visionary 采用逐帧 GPU 全局排序，彻底避免了类似 SparkJS 在快速视角变化下出现的 lazy sorting 视觉伪影。在 Mip-NeRF360 等基准上，画质指标与 SparkJS 持平甚至略有提升。

同时避免了 SuperSplat 等方案中的逐物体排序混合错误。在多模型混合场景下，仍能保证透明度渲染正确。

面向研究、创作与工业的统一平台

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

对研究者来说，任意 3DGS 变体只要能导出ONNX，即可快速复现、对比与展示；创作者无需安装专业软件，即可在浏览器中完成编辑、录制与渲染；

工业界则可将其应用于数字孪生、仿真、XR、具身智能等大规模实时场景。

Visionary 已在 GitHub 完全开源，采用宽松协议，并已获得 Firefox / Chrome WebGPU 相关开发者的关注与反馈。

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

目前已原生支持：MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar 等)、ONNX 生成式后处理（风格化、增强），全部渲染流程均在浏览器端完成。

团队表示，Visionary 只是迈向统一世界模型框架的第一步。未来将进一步探索：

物理交互增强（碰撞检测与 Mesh 管线融合）
物理感知建模（结合 MPM 等方法模拟真实动力学）
空间智能体（基于多模态大模型的空间推理与交互）
下游应用桥接（支持具身 AI 的 Sim-to-Real 迁移）

结语

World Model 的竞争，最终会回到一个问题：谁能把复杂世界，稳定、快速、低门槛地呈现出来？

Visionary 给出的答案是：用 WebGPU + ONNX，把世界模型真正带到 Web。

文章来自于“机器之心”，作者 “机器之心”。

关键词: 世界模型 , 模型训练 , WorldLabs , WebGPU

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md