BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道
6693点击    2026-06-10 14:44

具身智能现在面临的问题,和自动驾驶几年前的困境非常相似。


过去几年,自动驾驶行业已经证明了一件事:谁先把真实物理世界组织进统一的数字空间,谁就先拿到规模化的入场券


但当年,这件事并不是一开始就想明白的。


早期的纯视觉多相机方案,每个相机自己感知自己的,前摄看前面、侧摄看侧面,各出各的检测结果,再拼到一起交给规划系统。问题是,拼出来的东西在图像坐标里,不在物理世界里。视角一变、光线一变、场景一变,性能就掉。数据堆得越多,各自为政的混乱局面就越严重。


BEV,Bird's-Eye View,就是那把钥匙。它真正改变行业的地方,不是给了工程师一张“鸟瞰图”,而是把多相机、多传感器、多任务输出,统一压进了一个可被规划系统直接消费的物理坐标系。自动驾驶因此完成了一次关键跃迁:从在图像里猜世界,到在物理空间里理解世界。


今天,具身智能正站在同一个路口。机器人数据来自不同相机、不同本体、不同坐标系、不同操作者。没有统一空间,数据堆得越多,就越混乱——不是规模化,是熵暴。


跨维智能提出的 Dexterity-BEV,正是要在具身智能里重做一次这样的重构:把视觉输入、机器人状态和目标动作,对齐到同一个参考系里,让机器人数据第一次真正具备可规模化训练的空间底座。这可以被看作是一次把 BEV 方法论系统性推进到具身智能数据基建层的尝试。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


  • 论文标题:Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning
  • 论文地址:https://arxiv.org/abs/2606.02274
  • 项目链接:https://hnuzhy.github.io/projects/Dex-BEV/


无秩序的Scale,只会演变为熵暴


今天的具身智能行业非常热闹。


机器人本体不断推陈出新,新的数据集接连发布,新的遥操作系统、人类第一视角数据、仿真与生成数据也在快速增长。显然,行业正在进入一个数据快速扩张的阶段。


文本可以被统一组织成 token,图像也有相对稳定的数据范式,但机器人数据和文本、图像不同。机器人数据天然异构,以机器人一条操作数据举例,可能同时包含多视角图像、深度、相机参数、关节状态、末端轨迹、语言指令、任务成败和真实反馈等多种维度的信息。更何况各机器人本体规格不一,数据集坐标系互不统一,相机采集视角存在差异,操作人员动作节奏也各不相同;更为复杂的是,UMI、Egocentric等全新数据采集范式还在持续涌入。人类的身高、臂展、视角和动作习惯,本质上也像一种新的“异构本体”,进一步放大了数据之间的差异。


所以,具身智能面临的并不是单一的“数据量问题”,而是一个更棘手的双重难题:一方面,高质量真实交互数据仍然稀缺且昂贵;另一方面,已经采集到的数据又高度异构,难以互通、难以统一训练、难以跨机迁移


这正是具身智能正在面对的现实:行业既需要更多数据,也需要一种把数据变成可训练、可迁移、可复用资产的底层秩序。如果缺失统一秩序,数据扩张并非正向规模化 Scale,只会走向熵暴(entropy explosion)。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


Dexterity-BEV


01 给具身智能装上“统一空间坐标系”


Dexterity-BEV 的思路非常直接,也非常狠:把多来源、多视角、多本体的机器人数据,统一对齐到一个 BEV 三维空间里


这不是简单把多视角图像拼起来,也不是做一个笨重的三维重建系统。Dexterity-BEV 的关键,是构建一个统一BEV对齐坐标系,让不同相机看到的物体、空间关系和操作目标,都能被放进同一个俯视参考空间。


可以把它理解成一个“虚拟正交相机”。不管真实相机装在哪里、从哪个角度拍、机器人从哪个方向看,最终数据都会被转化到同一个俯视空间里。这样,同一个物理任务就不再是一堆互不兼容的二维图像,而是同一物理世界中的可学习表达。


这一步的意义很大,过去很多 VLA 模型看起来学会了任务,但一旦相机视角变了、机器人基座动了、场景布局变了,性能就会明显掉。原因很简单:模型学到的不是物理规律,而是某个固定视角下的图像模式。


Dexterity-BEV 要做的,就是把模型从“看图猜动作”拉回到“在三维空间里理解任务”。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


02 它不是放弃 2D 大模型,而是给 2D 大模型补上 3D 坐标


这也是 Dexterity-BEV 最值得讲的地方。


具身智能行业现在有一个两难:纯 2D VLA 有语义能力,但空间不够;重型 3D 方法有几何信息,但成本高、训练难,也不容易复用已有 2D VLM 的能力。


Dexterity-BEV 没有选择推倒重来。它保留多视角 RGB 输入,继续复用成熟的二维视觉编码器和视觉语言模型,同时通过顶点图(vertex map)顶点谱(vertex spectrum),给每个视觉 token 注入三维空间位置。


换句话说,它不是重新造一个昂贵的 3D 系统,而是在已有视觉模型体系上补了一层机器人最缺的东西:空间坐标。对于有深度信息的设备,它可以利用深度图和相机标定生成像素级三维顶点表示;对于更常见的纯 RGB 相机,它可以通过顶点谱机制,为每个像素构建一组三维位置假设,再编码进视觉特征中。


这就像给二维图像接上了一套三维物理骨架。语义能力保住了,空间理解补上了,工程成本也没有被打爆。这才是能 scale 的 3D。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


03 不只对齐视觉,还对齐动作


如果 Dexterity-BEV 只是把图像对齐到 BEV 空间,那还不够。机器人数据真正难的地方在于:动作也不统一


不同机器人本体差异巨大。一个 Franka,一个双臂平台,一个半人形机器人,即使执行同一个任务,关节轨迹也完全不同。如果模型直接学关节角,基本就被硬件绑死了,Dexterity-BEV 的处理方式,是把动作从具体关节里解放出来。


它不让模型只学习“某个关节转多少度”,而是学习末端执行器在统一 BEV 空间中应该去哪里、以什么姿态接近物体、如何移动、如何完成任务。


更关键的是,这些末端执行器位姿不是随便表达的,而是被进一步对齐到前面提到的统一 BEV 对齐坐标系中。


这就形成了一个非常漂亮的闭环:视觉输入在 BEV 空间里,机器人状态在 BEV 空间里,目标动作也在 BEV 空间里,输入和输出第一次被放进同一个物理坐标系统。这才叫真正的感知—动作对齐。


通俗点说,Dexterity-BEV 给不同机器人、不同相机、不同动作提供了一把共同的“空间尺子”。过去各说各话的数据,现在终于能用同一种物理语言交流。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


具身数据还有第三种混乱:时间。


同一个任务,不同操作者做得快慢不同;不同机器人执行速度不同;有的人中间停顿,有的人动作连贯。这些差异很多时候并不代表任务本质,但会让模型训练变得更难。


Dexterity-BEV 在数据管线中加入了跨轨迹时序对齐机制,对不同机器人、不同操作者、不同数据集里的轨迹进行时间尺度规整。它不是要抹掉任务动作结构,而是尽量减少“谁操作得快、谁操作得慢”这种无意义差异,让模型更专注于学习任务真正的关键动作顺序和空间关系。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


所以 Dexterity-BEV 做的不是单点优化,而是一套系统性数据基建:空间对齐、动作对齐、时序对齐、数据管线对齐


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


Dexterity-BEV 实测验证强泛化能力


Dexterity-BEV 的实验设计也很有意思。它不是只在固定场景里刷一个好看的分数,而是专门去测那些传统 VLA 容易翻车的情况:相机视角变化、机器人基座扰动、场景布局变化、跨机器人平台迁移。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


在仿真中,Dexterity-BEV 在 LIBERO 和 RoboTwin 2.0 上与 π0、X-VLA 等强基线对比。尤其在相机视角、机器人基座和场景布局被大幅扰动的设置下,传统 2D VLA 方法成功率明显下滑,而 Dexterity-BEV 仍能保持稳定表现。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


在真实机器人上,Dexterity-BEV 也覆盖了四类双臂平台和多个长程任务,包括折叠纸盒、叠衣服、舀爆米花、递书等。这些任务不是简单抓取放置,而是涉及刚体、柔性物体、颗粒物、双臂协同和人类交互的复杂操作。


这类任务更接近真实世界,也更能暴露模型到底是在“记画面”,还是在“理解物理”。


Dexterity-BEV 的结果说明了一件事:当机器人数据被放进统一空间,模型的泛化才真正有了基础。


BEV 进入具身智能,打通Scaling关键路径


笔者认为, Dexterity-BEV 最重要的意义,不只是一个模型效果提升,更像是具身智能从“堆数据阶段”进入“建数据秩序阶段”的标志。


过去行业很热衷讨论:谁采了更多小时数据,谁有更多机器人,谁做了更多任务。但如果这些数据不能统一训练、不能跨机迁移、不能复用到新场景,数据规模越大,反而越像一座座孤岛。


Dexterity-BEV 提供的是另一种思路:先建立统一物理空间,再谈数据规模化。这和自动驾驶当年 BEV 范式带来的变化非常像。BEV 让自动驾驶从多相机图像感知,走向统一空间理解;而现在,Dexterity-BEV 正在尝试让具身智能从杂乱的机器人轨迹,走向统一的感知—动作物理表达。


如果说过去具身智能还在“看见世界”,那么 BEV 进入之后,它开始有机会“组织世界”。这可能是具身模型真正 scale 之前,必须补上的一层数据基建。


BEV杀入具身智能:跨维智能把机器人数据带上Scaling快车道


具身智能的下一阶段,不会只是模型更大、数据更多、机器人更贵。


真正决定行业能不能跑起来的,是数据能不能被统一,动作能不能被迁移,经验能不能跨机器人复用。


Dexterity-BEV 的价值就在这里:它不是只做一个更强的策略模型,而是试图为具身智能建立一套可规模化的数据秩序。


从这个角度看,BEV 杀入具身智能,不是一个普通技术点,而是一次补课。


自动驾驶吃到过的 BEV 红利,现在轮到机器人了。


而跨维智能这次做的,就是把具身智能真正推上 Scaling 快车道之前,先把路修好。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda