Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景
8274点击    2026-02-08 12:09

刚刚,Alphabet 旗下的自动驾驶汽车公司 Waymo,推出了最新世界模型 Waymo World Model,其基于 DeepMind 的 Genie 3 构建,在大规模、超真实自动驾驶仿真方面树立了全新的行业标杆。


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


DeepMind CEO、诺奖得主 Demis Hassabis 也转推分享说这个基于 Genie 3 模拟的用例「超酷」。


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


Waymo World Model 建立在 Google DeepMind 的通用世界模型 Genie 3 之上,能够生成高度逼真且可交互的 3D 环境,并针对自动驾驶的严格需求进行了专业化适配。凭借 Genie 丰富的世界知识,它可以模拟极为罕见的事件 —— 从龙卷风到偶遇大象 —— 这些在现实中几乎无法大规模复现。


同时,模型架构高度可控,工程师可通过简单的语言提示、驾驶输入或场景布局快速调整仿真内容。更重要的是,Waymo World Model 支持生成高保真、多传感器数据,包括摄像头图像和激光雷达点云,为自动驾驶系统提供全面、逼真的训练与测试环境。


Waymo 表示,Waymo Driver 已累计完成近 2 亿英里的完全自动驾驶行驶,成为美国多个主要城市运行体系中的一部分,并持续提升道路安全性。但公众往往看不到的是,在真正驶上公共道路之前,这套系统早已在虚拟世界中行驶了数十亿英里,反复演练各种复杂、罕见甚至极端的交通场景。Waymo World Model 正是支撑这一能力的核心基础设施,使自动驾驶系统能够在现实世界之外,提前掌握应对真实世界的能力。


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

Waymo Driver 避开逆向行驶车辆的仿真演示。该仿真首先重现了真实事件,然后平滑过渡,使用 Waymo World Model 实时高效生成的摄像头图像和激光雷达点云进行模拟。


接下来我们看看 Waymo 世界模型在实际运行中的表现,包括 Waymo Driver 在各种罕见、极端边缘场景中的仿真驾驶过程。


涌现的多模态世界知识


自动驾驶行业中的大多数仿真模型,都是仅基于自身采集的道路数据从零开始训练的。这种方式意味着系统只能从有限的真实经验中学习。相比之下,Genie 3 在极其庞大且多样化的视频数据上进行预训练,由此获得了强大的世界知识,从而可以探索车队从未直接经历过的场景。


通过专门设计的后训练流程,Waymo 将这些庞大的 2D 视频世界知识迁移到了 Waymo 硬件套独有的 3D 激光雷达输出中。摄像头擅长呈现丰富的视觉细节,而激光雷达则提供了提供了宝贵的互补信号,如精确的深度信息。Waymo 世界模型可以跨多种传感器模态生成几乎任何场景 —— 从日常驾驶到极为罕见的「长尾」场景。


极端天气与自然灾害示例


车辆行驶在覆盖着薄雪的金门大桥上,前置摄像头画面中还能看到 Waymo 的影子;


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

在极端天气中,车辆遭遇龙卷风的情况:


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

罕见且对安全至关重要的事件


在车辆行驶过程中,鲁莽的驾驶员操作不当,驾着车驶离公路:


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

行走在道路上,一辆故障卡车逆向行驶,堵塞了道路:


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

遇到诸如大象、长角牛等动物或事物时的罕见情况


车辆行驶在道路上,迎面遇到一只大象:


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

车辆行驶在道路上,与一只德克萨斯长角牛相遇:


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

强大的模拟可控性


Waymo 世界模型提供了强大的模拟可控性。而这仰赖三种主要机制:驾驶行为控制、场景布局控制和语言控制。


驾驶行为控制能够创造一个响应迅速的仿真器,遵循特定的驾驶输入。这使得我们能够模拟「如果…… 会怎样」的反事实事件,例如在特定情况下,Waymo 驾驶系统是否可以更自信地安全驾驶,而不是让行。  


反事实驾驶。下面 Waymo 展示了在过往记录驾驶的原始路径或全新路径下的仿真结果。虽然纯重建式仿真方法(例如 3D 高斯溅射,或 3DGS)在模拟路径与原驾驶路径差异过大时,由于缺少观测数据而容易出现视觉失真,但完全基于学习的 Waymo 世界模型凭借其强大的生成能力,仍能保持良好的真实感和一致性。  


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


场景布局控制允许自定义道路布局、交通信号灯状态以及其他道路使用者的行为。通过这种方式,可以通过选择性放置其他道路使用者,或对道路布局应用自定义变异,来创建定制场景。  


场景布局条件控制遵从


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


语言控制是 Waymo 世界模型最灵活的工具,可以用来调节一天中的时间、天气状况,甚至生成完全合成的场景(例如前文展示的长尾场景)。


世界变异:时间


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


世界变异:天气


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


行车记录视频的转换


在一次风景优美的行程中,人们常会用手机或行车记录仪记录沿途视频,可能拍到堆积的雪墙,或是夕阳下的高速公路。Waymo 世界模型可以将这类视频,以及任何普通相机拍摄的视频,转换为多模态仿真,呈现 Waymo Driver 在同一场景下的「所见」。Waymo 表示,由于仿真直接来源于真实影像,这一过程在真实感和事实准确性上达到了最高水平。


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


可扩展推理


一些需要模拟的场景可能需要较长时间才能完整呈现,例如在狭窄车道中通行的情况。长时间仿真通常更具挑战性,因为随着仿真时长增加,计算负担加重,同时保持稳定高质量也更困难。不过,通过 Waymo World Model 的高效变体,可以在显著降低计算量的同时模拟更长的场景,并保持高真实感与高保真度,从而支持大规模仿真。


在高效变体上进行的长时段仿真(4 倍速):


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景


在高速公路上,需要在车道内的障碍物和快速行驶的车辆之间穿梭行驶。


Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景

在繁忙的街区穿行


通过模拟这些极为罕见的情况,Waymo Driver 可以提前为复杂、长尾的驾驶场景做好准备。这一能力为自动驾驶系统设立了更严格的安全基准,确保其在现实道路上遇到类似挑战之前,已具备应对能力。


参考链接:


https://waymo.com/blog/2026/02/the-waymo-world-model-a-new-frontier-for-autonomous-driving-simulation


https://x.com/demishassabis/status/2019827916385972517


文章来自于微信公众号 “机器之心”,作者 :“机器之心”

AITNT-国内领先的一站式人工智能新闻资讯网站