破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

10794点击 2026-02-10 14:13

当物体在滚动、滑动、被撞飞，机器人还在执行几百毫秒前的动作预测。

对动态世界而言，这种延迟，往往意味着失败。

在过去几年中，Vision-Language-Action（VLA）模型迅速成为机器人领域的焦点：机器人可以 “看懂” 画面、“理解” 语言指令，并直接输出连续动作，在静态抓取、摆放、桌面操作等任务中取得了显著进展。

但一个长期被忽视的问题是 ——真实世界几乎从来不是静态的。当物体开始移动、加速、碰撞、改变轨迹，当前主流 VLA 模型往往会出现反应迟缓、动作失配、甚至完全失败的情况。

问题不在于模型不聪明，而在于：它们跟不上时间。

近日，来自 NTU S-Lab 的研究团队提出 DynamicVLA，首次系统性地从模型架构、推理机制和数据体系三个层面，重新审视并解决动态物体操控（Dynamic Object Manipulation）这一长期空缺的问题。

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

想深入了解 DynamicVLA 的技术细节？我们已经为你准备好了完整的论文、项目主页和代码仓库！

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

论文链接：https://arxiv.org/abs/2601.22153

项目链接：https://haozhexie.com/project/dynamic-vla/

GitHub 链接：https://github.com/hzxie/DynamicVLA

为什么 “动态操控” 对 VLA 来说如此困难？

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

在静态场景中，VLA 模型通常遵循如下流程：

感知 → 推理 → 生成一段动作 → 执行完 → 再次推理

当环境基本不发生变化时，这种方式可以正常工作；但一旦物体开始运动，这一流程便迅速失效。

问题并不在于模型能力不足，而在于时间结构本身不适用于动态世界，主要体现在两个方面：

1.感知 — 执行时间错位（Perception–Execution Gap）：由于推理存在不可避免的延迟，当模型完成决策时，物体状态早已发生变化，动作天然 “滞后于现实”。

2.动作分块等待（Inter-chunk Waiting）：多数 VLA 必须等上一段动作完全执行后才能启动下一次推理，使机器人在动态环境中始终处于被动追赶状态。

这两个问题叠加，使得即便在静态任务中表现良好的 VLA，也难以应对真实世界中的动态操控。

DynamicVLA 的核心思路：让机器人 “边想边做”

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

DynamicVLA 并没有选择通过增大模型来 “预测更远的未来”，而是围绕一个更根本的问题重新设计系统：

在推理延迟无法消除的情况下，如何保证机器人执行的动作仍然与当前世界状态时间对齐？

为此，DynamicVLA 从推理机制、执行策略和模型结构三个层面提出了对应设计。

1. Continuous Inference：让推理与执行不再相互等待

在传统 VLA 中，推理与执行严格串行；

而 Continuous Inference（连续推理）允许模型在上一段动作尚未执行完时，就启动下一轮推理，从而解决的是 Inter-chunk Waiting 带来的反应迟滞问题：

2. Latent-aware Action Streaming：修复推理延迟造成的时间错位

即使采用连续推理，推理延迟本身仍然存在。这意味着：模型生成动作时所依据的观察，往往已经落后于真实世界。Latent-aware Action Streaming（LAAS）正是针对这一 Perception–Execution Gap 设计的执行机制：

3. 为动态而生的轻量化 VLA 架构

上述机制能否成立，还依赖于足够低的推理延迟。因此 DynamicVLA 采用了专为动态操控设计的轻量化架构：

动态操控数据的核心缺口：从仿真到真实世界

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

当前，无论是仿真还是真实机器人，主流 VLA 数据集几乎都聚焦于静态操作，而对动态物体交互的系统性覆盖仍然缺失。这一数据结构性偏差，直接限制了 VLA 在真实动态环境中的泛化能力。

在仿真侧，DynamicVLA 基于 Isaac Sim 构建了大规模动态操控数据：覆盖 2800+ 场景、206 种物体，通过多样化的物体运动与交互模式，生成丰富且可控的动态仿真数据，为模型提供了系统性的动态训练基础。

相比之下，真实世界的动态数据采集处于 “几乎不可行” 的状态：动态物体运动速度快，人类遥操作反应时间不足，且难以实时获取高质量的 6D 位姿与速度标注，使得规模化、可复现的真实动态操控数据一直缺位。

DynamicVLA 的做法并不是强行遥操作，而是把真实世界 “做成仿真接口”（Real-world Simulator）：

多视角 RGB 感知，实时追踪物体运动

在线估计物体 6D 位姿 + 速度

将真实环境抽象为与仿真一致的状态输入

直接复用同一套状态机与控制逻辑

首个动态操控基准：DOM Benchmark

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

在上述自动化数据体系之上，团队进一步构建了 Dynamic Object Manipulation（DOM）Benchmark，这是首个专为动态物体操控设计的系统性评测基准。

与以往侧重 “是否完成任务” 的静态评测不同，DOM 从动态操控的本质出发，将能力拆解为 3 个核心维度、9 个子维度：

1. 交互能力（Interaction）评估机器人在物体持续运动下的实时控制与决策能力，包括：

Closed-loop Reactivity：对不同运动速度的即时响应能力

Dynamic Adaptation：在碰撞、变向等突发事件后的快速调整能力

Long-horizon Sequencing：在长时间动态交互中保持策略一致性的能力

2. 感知与理解（Perception）评估模型在动态场景中的多模态理解能力，包括：

Visual Understanding：区分外观相似物体的能力

Spatial Reasoning：理解空间关系与相对位置的能力

Motion Perception：感知与判断物体运动状态（速度、方向）的能力

3. 泛化与鲁棒性（Generalization）评估模型在分布外动态条件下的稳定性，包括：

Visual Generalization：面对未见物体与新场景的适应能力

Motion Generalization：应对新速度范围与运动模式的能力

Disturbance Robustness：在外部扰动下维持稳定控制的能力

DOM Benchmark 显示，DynamicVLA 在动态交互相关能力上显著领先，但在感知理解与扰动鲁棒性上仍存在明显不足。这一限制并非偶然，而是源于为保证实时性而选择的小模型架构。如何在响应速度与推理能力之间取得更优平衡，将是动态操控 VLA 的重要方向。

实验结果：动态世界中的断层领先

在仿真与真实机器人实验中，DynamicVLA 在多个维度上显著领先现有方法。

破解机器人「慢半拍」难题：南洋理工解决VLA致命短板，动态世界断层领先

DynamicVLA 的意义：机器人开始真正 “活在时间里”

DynamicVLA 传递了一个清晰信号：

下一代机器人智能的核心，不只是 “看懂世界”，而是在世界变化的过程中持续做出正确反应。

从 Continuous Inference，到 Latent-aware Action Streaming，再到 Real-world simulator，DynamicVLA 为动态操控提供了一套可复现、可扩展、可落地的系统范式。

文章来自于微信公众号 “机器之心”，作者： “机器之心”

关键词: AI新闻 , 模型训练 , DynamicVLA , 具身智能