终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布
7053点击    2026-05-23 09:55

2026 年 5 月的红杉 AI Ascent 大会上,英伟达具身智能掌门人 Jim Fan 用短短 20 分钟的演讲《Robotics: Endgame》,给过去三年的机器人技术路线画上了一个引人深思的句号。


他直言不讳地指出,当下主导具身智能的 Vision-Language-Action (VLA) 模型,本质上是 “LVA”—— 把最大的参数量倾注在语言上,导致模型在编码物理常识和动作执行上常常 “翻车”。Jim Fan 给出的破局之道,是复刻大语言模型的 “伟大的平行(The Great Parallel)”:与其模拟下一个文本 Token,不如让机器人去模拟下一个物理世界状态。


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


Jim Fan 押注的这条 “先预测世界,再生成动作” 的新路,正是当下具身智能领域最炙手可热的下一代范式 —— 世界动作模型(World Action Models,简称 WAM)


虽然 WAM 正在迅速成为各大顶尖实验室的核心发力点,但业界至今仍然缺乏对它的统一标准和系统梳理。近期,复旦大学可信具身智能研究院,上海创智学院,新加坡国立大学发表了首篇 WAM 的详细综述


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


  • 论文题目:World Action Models: The Next Frontier in Embodied AI
  • 作者单位:复旦大学、上海创智学院、新加坡国立大学
  • 论文地址:https://arxiv.org/pdf/2605.12090
  • Github 仓库:https://github.com/OpenMOSS/Awesome-WAM
  • 项目网页:https://openmoss.github.io/Awesome-WAM/


这篇综述的目标,正是给这个快速形成中的前沿方向画出一张清晰的 “导航地图”:系统梳理 WAM 的定义、架构、训练数据、评测方式和开放问题,帮助读者快速理解这个新兴领域为什么重要、难在哪里、接下来又将走向何处。


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


图 1. 世界动作模型(WAM)的发展脉络图


1. 世界动作模型(WAM)到底是什么?


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


图 2. WAM 概念定义与相关范式对比


过去两年,VLA 几乎成了具身智能的代名词。从 RT-2 到 OpenVLA,视觉、语言和动作的统一让机器人能够理解开放词汇指令。但 VLA 存在一个根本性的盲区:它只关心 “当前输入对应什么动作”,而不直接约束模型去预测 “执行动作后的未来状态”。 这导致它在复杂的物理交互场景下短板暴露无遗。


WAM 正在试图填补这个缺口。一个简洁的定义是:World Action Model 是把未来状态预测与动作生成统一建模的具身基础模型。它不只是回答 “下一步做什么”,还要建模 “这样做之后世界会怎样”。


视觉语言动作模型(VLA)、世界模型(WM)、世界动作模型(WAM)三类范式的核心差异,可以用一组公式概括:


  • VLA:p (a | o, l),从当前观测 o 和语言指令 l 直接生成动作 a。
  • World Model:p (o' | o, a),预测给定动作后的未来状态 o'。
  • World Action Model:p (o', a | o, l),在同一模型中联合生成未来状态与动作。


在 WAM 出现之前,世界模型其实已经开始以 “外挂” 的形式帮助 VLA(即 WM for VLA),主要用于改进模仿学习、支持强化学习或扩展策略评测。


但 WAM 的关键进化在于,它把这种 “外部辅助” 推进到了模型结构内部:未来状态预测不再只是训练的辅助工具,而是直接参与动作生成。当一个模型同时学习 “世界会如何变化” 和 “应该如何行动” 时,它就不再是被世界模型增强的 VLA,而是一个真正的 World Action Model。


从架构演进的角度来看,当前的世界动作模型(WAM)在设计思路上主要分为两大阵营:Cascaded WAM(级联式)  Joint WAM(联合式)。前者采用解耦策略,主打 “先想象,再行动”;后者则追求大一统,试图将 “预测世界” 与 “生成动作” 彻底融合进同一个大脑。


2.Cascaded WAM:


先想象,再行动的 “两步走” 路线


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


图 4. Cascaded WAM 结构图:包含显式生成(分为 Learned Action 和 Geometric Extraction)和隐式生成(Latent Representation)两种模式


Cascaded WAM 把世界预测和动作生成拆分为两个独立阶段:先由世界模型 “脑补” 出一个未来的预期计划,再由下游独立的动作模型将这个计划解码为机器人的可执行动作。


根据中间这层 “预期计划” 形态的不同,Cascaded WAM 分为两条路线:


  • Explicit Generation(显式生成):这类方法先让一个世界模型(通常是视频生成模型)根据指令和当前画面,生成一段未来执行任务的视频(像素级计划)。然后,再通过一个逆动力学模型(IDM几何计算方法,从生成的视频中提取出具体的机器人动作。它的优势是直观、可解释,能完美继承现有视频生成模型的时空先验;瓶颈在于频生成的计算成本太高,而且 “视觉上看起来合理” 并不等同于 “物理控制上足够精确”
  • Implicit Generation(隐式生成):彻底放弃解码完整的视频或几何画面,而是将未来计划压缩并保留在隐空间特征(Latent Space)中,直接交给轻量化的策略网络去生成动作。它虽然牺牲了部分人类可读的可解释性,却换来了极低的延迟和更贴近实时部署的潜力。这也揭示了具身智能的一个核心趋势:机器人需要的未必是给人类 “观看” 的未来,而是能直接指导 “行动” 的未来表示


3.Joint WAM:


把世界预测写进模型内部


如果说 Cascaded WAM 是把两个模型串联打配合,那么 Joint WAM 则是把未来状态预测和动作生成彻底融合进同一个模型框架中。这也是目前各家顶尖实验室最看好、最具潜力的端到端方向。


按照底层生成范式的不同,Joint WAM 内部又分化出两条主流路线:


路线一:自回归(Autoregressive)


将视觉状态、未来状态和动作全部组织成 Token 序列,利用 Transformer 按时间顺序逐步预测。它的核心优势是与现有 LLM(大语言模型)的范式天然兼容,可以充分复用大模型的上下文能力;劣势在于顺序生成速度较慢,且在长序列中容易产生误差累积。


  • Explicit Decoupled Representation:未来视觉和动作通过不同的输出头(Head)分别预测,强调让 “视觉预测” 来辅助 “动作生成”。
  • Unified Discrete Representation:大一统路线,将多模态数据统一离散化为 Token,在同一个类似语言模型的框架内完成跨模态的联合生成。
  • Predictive Latent Representation:在隐空间中直接预测未来状态,巧妙卸下了像素级生成的庞大计算负担。


路线二:扩散生成路线(Diffusion-based)


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


图 5. Diffusion-based Joint WAM 架构图:分为 Unified Stream 和 Mutli-Stream,其中 Multi-Stream 通过 Cross-Attention Coupled、Hidden-State Coupling 和 Shared Representation 融合


用扩散模型或 flow matching 联合生成未来状态和动作。它更适合连续、多峰、需要平滑控制的物理动作,但实时控制的推理成本仍是一大挑战。为了在联合生成与推理效率间取得平衡,主要衍生出两大架构策略:


  • Unified Stream(单流融合):状态和动作进入同一主干模型,在共享表示中一起去噪,耦合度最高。按对未来状态的处理方式,可细分为:(1)Explicit Future Prediction:在显式空间中直接预测未来视频或 latent,可解释性强;(2)Implicit Future Alignment:未来状态仅作为训练监督,推理时不显式生成未来,极度适配轻量化真机部署。
  • Multi-Stream Coupling(多流耦合):各模态分支独立建模,通过特定机制频繁交换信息。根据信息交互机制的不同,主要分为三种:(1)Cross-Attention Coupling(交叉注意力耦合):视频与动作分支独立生成,通过交叉注意力层持续交换特征;(2)Hidden-State Coupling(隐状态耦合):世界模型提取出包含时空信息的隐状态(Hidden States),单向传递给动作分支作为控制条件;(3)Shared Representation(共享表征):视觉与动作先融合成统一的共享底层表示进行处理,再由各自独立的解码头分别输出未来状态与动作。


4.WAM 需要什么数据?——


 四类核心数据源的协同融合


过去的 VLA 主要依赖带有精确动作标注的真实机器人轨迹数据,而 WAM 的数据获取版图迎来了维度的跨越:它不仅可以利用 “状态 - 动作” 强对齐的控制数据,更能直接吸收海量无动作标注的互联网原始视频,从中自主挖掘并学习物理规律。


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


图 6. WAM 训练数据版图:按 Transfer Difficulty 与 Scaling Difficulty 展示机器人遥操作、便携式人类示范、仿真、人类 / 第一视角视频等数据来源。


终结VLA?英伟达押注的具身新范式,首篇世界动作模型WAM综述重磅发布


5. 如何评测 WAM?——


 不止看 “像不像”,更要看 “能不能用”


评测 WAM 极具挑战性,因为它必须同时跨越两个维度的考核:世界预测能力(未来是否合理)与动作策略能力(控制是否有效)。


  • 世界预测侧:传统的 PSNR 或 FVD 指标远远不够。一个视觉上极其逼真的生成视频,完全可能违背物理规律。评测需要关注三个层次:视觉一致性物理合理性(重力、碰撞约束)、以及动作可还原性(能否从中反推出机器人的执行动作)。
  • 动作策略侧:需要通过硬核的机器人 Benchmark 进行检验。除了基础的抓取放置,更需要考验模型在接触丰富(Contact-rich)、柔性物体形变、双臂协同操作等复杂物理交互中的成功率与泛化能力。


6. 挑战与未来:


WAM 下一个突破点在哪里?


尽管 WAM 展现出了通向具身智能终局的巨大潜力,但要将其从实验室原型真正推向物理世界的规模化部署,仍需跨越以下核心挑战:


  • 架构设计的 “最优解” 未定:状态与动作的耦合深度尚无定论。Cascaded(级联式)与 Joint(联合式)路线在不同任务场景下孰优孰劣,仍需学界进行更系统的实证对比。
  • 纯视觉表征的物理局限:真实的物理操作重度依赖触觉、力觉和本体感受。仅靠 RGB 图像预测,难以处理遮挡严重、材质多变或需要高精度接触的复杂任务。
  • 数据融合缺乏标准化方法:海量视频与真实动作数据的配比原则、跨模态去噪策略目前仍高度依赖经验直觉,亟需建立科学且可复现的混合方法论。
  • 长时程规划极易产生误差累积长序列的未来预测必然带来状态漂移(State Drift)。探索分层 WAM 架构 —— 即高层负责长期的语义目标规划,低层负责局部的物理精细控制 —— 可能是未来的破局关键。


  • 预测算力与实时推理的矛盾:一边是生成式模型庞大的世界状态预测计算量,另一边是机器人极其苛刻的高频实时控制需求。如何动态提取 “足够支撑行动的最小未来表征”,是迈向工程化落地的硬性瓶颈。


  • “物理幻觉” 要求重构安全机制:具备 “想象” 能力的模型,同样可能极度自信地预测出一个违背常理的未来。因此,WAM 的安全机制不仅要监控输出动作,更要具备拦截、验证 “不可信物理想象” 的能力,以防引发灾难性的执行。


7. 结语


WAM 的意义,绝不只是给 VLA 挂上一个预测插件,而是重新定义了具身智能的第一性原理:“在行动之前,先理解行动将如何改变世界。”


过去的机器人基础模型在追问 "What should I do next?";而 WAM 进一步拷问灵魂:"What will happen if I act, and how should I act to make the right future happen?"


如果 VLA 打通了语言与动作的桥梁,那么 WAM 则完成了动作与物理反馈的闭环。正如 Jim Fan 在红杉大会上留下的断言 —— 机器人终局的齿轮已经转动。在这场 “伟大的平行” 中,WAM 无疑是最关键的一块拼图。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

AITNT-国内领先的一站式人工智能新闻资讯网站