将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界
8110点击    2026-03-30 15:03

机器人能认出杯子,却看不懂杯口朝哪、离自己多远、该抓哪里。


这是当前VLM在物理世界里的尴尬。


如果将深度信息无缝整合进VLM系统,一切或将大不一样。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界


人工智能的终极目标之一,是构建能够完整理解、建模、预测并自主作用于现实世界的智能系统。在通往这个目标的道路中,空间智能是底层感知和理解基座,支撑AI大脑走进现实,感知、理解以及完成与物理世界的真实交互。


长期以来,空间感知信息的模糊性,一直是阻碍AI与物理世界深度适配的重要瓶颈。基于此,视启未来(Visincept)团队联手清华大学、IDEA研究院提出了全新的具备空间感知能力的视觉-语言框架SpatialPoint,通过提升机器人在三维空间中感知并确定行动位置的能力,补齐AI与现实交互的短板,从而推进具身应用落地与AI大脑发展。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 不同具身场景下SpatialPoint的精准应用


难以适配物理世界的智能


尽管今天的视觉-语言模型(VLM)已具备强大的物体识别与语义理解能力,能够轻松分辨常见以及部分垂直、长尾场景的物体,也能响应诸如“把杯子放到桌上”等自然语言指令。


但在实际的三维场景中,这些能力并不能有效转化为可落地的空间操作能力。相反,空间操作信息的模糊性和不确定性,常常导致机器人无法稳定、精准地与物理世界交互。造成这类情况的原因,可归结为三点:


(1)过度依赖RGB图像,缺乏真实度量深度,空间判断全靠猜测


虽然RGB-D传感器在机器人中应用广泛,但当前主流VLM仍以彩色(RGB)图像为主要输入,仅依靠纹理、透视等线索隐式推理3D结构,缺乏直接、精确的深度信息。


在执行类似“抓住桌上的杯子”等任务时,模型虽能定位到杯子,却无法精准判断其与镜头的距离、杯口朝向,以及稳固的抓取位置。场景或视角一旦改变,距离与位置判断便会失效,导致机器人频繁出现抓空、抓偏、碰撞等问题。


从技术本质看,单目RGB缺乏显式度量几何信息,几何保真度低、跨场景泛化能力差,而多视图三维重建则依赖复杂的相机标定与位姿计算,落地难度大。


(2)只能输出2D框与语义标签,无法提供机器人可直接执行的3D坐标


传统VLM的输出多为2D框、语义掩码或物体类别名称,这些信息对机器人而言缺乏实际执行价值。机器人执行任务不需要“这里有杯子”的标注,而是需要精确到像素与毫米的三维行动点。比如面对“抓取杯子把手”的指令,传统模型只能框选出把手区域,无法直接告诉机械臂具体下爪坐标(如像素坐标(865,711)、深度825毫米)。这使得感知与执行之间出现巨大的断层,机器人还需要经过复杂的后处理、坐标转换、误差校准,流程繁琐且极易出错。


(3)实点与虚点割裂,无法在统一框架下完成两类关键任务


SpatialPoint团队认为,具身智能需要从根本上具备在三维空间中确定行动位置的能力,并细化到“点”的维度。由此提出了具身定位的概念,即在视觉观察和语言指令的条件下预测可执行的三维点。


在与物理世界的交互中,机器人离不开两种核心的空间点位信息:一是物体表面的附着点,即实点(TouchablePoint),用于抓取、按压、接触等直接交互;二是无遮挡的自由空间点,即虚点(AirPoint),用于物体放置、移动导航、避障等间接交互。


但现有技术大多只能处理其中一类,缺乏能在统一接口下同时精准预测两类点位的模型。例如机器人想要完成“拿起杯子放到篮子上方”的任务,需要分别调用抓取点与放置点两套不同的模型、数据与接口,兼容性差、效率低下,无法满足一体化具身任务需求。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 实点和虚点的应用示例


SpatialPoint:让AI原生感知精确的空间信息


SpatialPoint是面向具身定位任务设计的空间感知视觉-语言框架,该框架以Qwen3-VL为基础模型,开创性地将结构化深度信息作为核心输入,与RGB、文本指令并行编码融合,实现端到端的相机坐标系三维点预测。


简单来说,SpatialPoint能看懂彩色画面、读懂距离信息、听懂语言指令,从而能够原生输出机器人可直接在三维空间中使用的抓取点、放置点和导航点。


1. 核心创新


尽管有部分研究尝试将RGB-D传感器获取的深度度量信息引入视觉-语言模型,但这些方法均未突破“将深度作为辅助线索”的设计局限:它们要么将深度特征在模型中间层与RGB特征简单拼接;要么在模型输出3D结果后,用深度信息做后处理修正。


在这类设计中,深度信息从未进入VLM的核心视觉-语言融合推理流程,无法与RGB特征、语言特征产生深度的协同交互,相当于“拿到了深度数据,却没真正发挥其度量几何价值”,最终仍无法解决传统VLM的3D推理偏差问题。


SpatialPoint面向空间智能场景做了更直接的架构设计,将深度从辅助信息提升为与RGB、语言并行参与推理的核心输入,让深度信息从模型输入阶段就参与推理,贯穿视觉特征编码、多模态特征融合、3D坐标预测的全流程。


与此同时,针对预训练VLM仅支持RGB和语言输入,直接加入深度模态会破坏模型原有能力的技术难题,SpatialPoint通过“深度专用编码+特征对齐”和两阶段训练策略两大关键设计,实现了深度模态与预训练VLM的无缝融合,既激活了深度信息的度量几何价值,又保留了VLM原本的视觉-语言理解能力。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ SpatialPoint与现有空间感知方法的对比


此外,不同于现有方法要么只关注表面的交互点,要么只关注端到端的动作生成,SpatialPoint实现了在一个统一的视觉条件接口下,同时提供涵盖表面附着点(实点,TouchablePoint)和周围自由空间中需要推理的目标(虚点,AirPoint)的统一视角,并直接输出机器人可执行的结构化3D坐标,实现“模型输出即机器人执行指令”,大幅降低了具身应用的落地复杂度。


2. 技术原理


SpatialPoint的整体技术框架围绕“深度信息原生融合”展开,从深度编码、模型训练、多模态融合、3D坐标四个环节,构建出端到端的3D点预测流程。具体操作如下:


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 图2 SpatialPoint技术框架


(1)深度编码


由于预训练VLM只支持3通道RGB输入,无法直接接收单通道的深度图,因此第一步需要先将单通道深度图转为3通道格式,适配模型视觉分词器;再复用RGB主干网络结构,为深度信息搭建专用主干网络,并让两个网络在相同的图像分块(Patch)网格中运行,生成空间、特征维度完全对齐的RGB token和深度token,为后续两种特征的融合推理做好准备。


(2)两阶段训练


考虑到直接把深度信息加入预训练VLM一起训练会破坏VLM已有的能力,因此SpatialPoint采取了“先适配、后融合”的两阶段训练策略:


  1. 先冻结VLM的所有原有模块,只针对深度专用主干网络训练,并用10倍于基础的学习率让它快速掌握深度几何特征的提取能力,适配3D空间推理任务;
  2. 再解冻整个模型的所有模块,用标准学习率做全模型联合微调,让RGB视觉信息、深度几何信息和语言指令特征深度磨合、协同学习,最终实现深度信息与预训练VLM的无缝融合。


(3)多模态协同推理


为了让 RGB、深度、语言三种特征能有序融合,且协同推理,SpatialPoint 为深度 token 设计了专属的边界标记符<dpt_start>/<dpt_end>,连同 RGB 的<vision_start>/<vision_end>、语言文本 token 组合成一个统一的因果序列,一起输入多模态融合网络。模型会保留原本的因果注意力机制,让三种特征在推理中相互引导、彼此配合。


比如在解析“杯子左侧30厘米”的指令时,模型会同时结合RGB识别的杯子2D位置和深度图获取的杯子实际距离,联合计算出精准的3D目标点,而非三种特征各自推理后简单拼接结果。


(4)输出结构化3D坐标


最后,模型的语言建模头会直接生成(u,v,Z)格式的结构化3D坐标,无需额外的解码、转换步骤,其中u/v是图像上的像素相对坐标,Z是对应位置的深度值(单位为毫米)。这个坐标可以直接被机器人的运动控制系统识别和解析,模型的推理结果就是机器人可直接执行的动作指令,大幅降低了从模型推理到实际落地的复杂度。


3. 自建数据集


为了支撑模型训练与评估,团队构建了SpatialPoint-Data数据集,该数据集总共包含260万组RGB-D问答对,同时覆盖实点与虚点两类任务:


其中,190万组实点数据,由RoboAfford的2D交互标注结合深度图提升为三维坐标获得;72万组虚点数据,通过DINO-X目标检测、深度图与相机内参,自动计算方向、间距、物体间关系等三维几何约束生成。海量且多样化的数据,让模型具备极强的跨场景泛化能力。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ SpatialPoint数据引擎


4. 实验结果


本次实验针对机器人要找的两类三维点,制定了不同的效果评判标准:一类是需要机器人接触物体的附着点(实点),核心指标包括:


(1)能不能精准找到物体上的有效操作位置(2D准确率)


(2)对这个位置的深度判断准不准(深度MAE,数值越小越精准)


另一类是机器人只需定位的自由空间点(虚点),核心指标包括:


(1)能不能找对指定方向(DirPt,方向正确性)


(2)在指定方向上是否满足距离约束(MetPt@5cm,5厘米距离准确率)


(3)方向和距离能不能同时找对(FullPt,联合成功率)


(4)距离预测的平均偏差(MeanErr,数值越小越精准)


而且所有距离相关的评判,都要先保证方向找对,这样的结果对机器人实际操作才有意义。


(1)实点预测效果大幅提升


在找物体可接触点的任务中,SpatialPoint的表现实现了质的飞跃:整体能精准找对物体有效操作位置的概率达到79%,远超其他主流模型的74.1%、50.3%,在识别物体可操作部位、找空置操作区域等细分场景里,表现优异。


更关键的是,SpatialPoint对距离预测的平均误差仅17.2毫米,在物体有效操作区域内的误差更是低至9.3毫米;而传统只靠图像的模型,距离预测平均误差高达574.8毫米,两者差距超过30倍。这就说明,把深度信息作为核心输入融入模型后,不仅能精准找到物体上的操作位置,还能准确判断这个位置的实际距离,从根本上解决了传统模型“只看平面图像,靠猜测判断实际距离”的问题。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 基于RoboAfford-Eval数据集的实点结果验证


(2)虚点推理能力显著增强


定位自由空间点,是机器人完成导航、放置物体等任务的关键,SpatialPoint在这项任务上的优势更突出:


仅训练1轮,找对指定方向的概率就达到48.86%,远超其他模型的8.04%、5.32%;5厘米内找对具体位置的概率25.87%,方向和距离同时找对的概率13%,距离预测的平均偏差仅8.5厘米;而传统只靠图像的模型,距离平均偏差高达54.7厘米。


随着训练轮次增加到3轮,SpatialPoint模型的表现还在稳定提升,找对方向的概率最终稳定在50.71%,5厘米内找对具体位置的概率提升到33.47%,方向和距离同时找对的概率提升到16.41%,距离平均偏差也降到了6.8厘米,说明模型能很好地学习融合深度信息,训练效果越练越好。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 基于SpatialPoint-Bench数据集的虚点结果验证


(3)复杂空间定位表现优异


不管是找指定方向的点、找两个物体之间的点,还是以物体自身大小为参照找距离,SpatialPoint的表现都全面超过其他模型,找对方向的概率分别达到51.61%、43.71%、50.97%,证明它在各种复杂的空间定位场景中,都能有稳定的表现。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 基于SpatialPoint-Bench数据集的复杂空间定位结果验证


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 部分基于RoboAfford-Eval数据集的表面目标定性对比效果


三、应用场景


除了数据实验,SpatialPoint还使用真实的机器人完成了落地验证(参考本文顶部视频)。针对三大典型具身任务:语言引导机械臂抓取(实点)、物体放置到目标位置(虚点)和移动机器人导航(虚点),模型无需微调,即可准确输出机器人可直接执行的3D坐标,实现零样本泛化。


得益于仅需一个统一的视觉条件接口的巨大优势,SpatialPoint让多任务一体化操作成为现实。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△一个模型实现导航、抓取和放置


想象一个复杂的全流程场景:当用户向机器人下达“把餐桌上的水杯拿到客厅实木茶几正中央,再走到玄关鞋柜旁待命”这一连贯指令时,传统VLM仅依靠RGB平面图像工作,既无法精准感知物体的实际深度和空间距离,也不能直接输出机器人可执行的3D坐标,完成任务时不仅需要切换多个专用模型、做额外的坐标转换处理,还极易出现抓空水杯、放置偏移碰撞、导航定位不准等问题,跨场景执行的稳定性也极差;


而搭载了SpatialPoint的机器人,由于将深度信息作为核心输入,通过单一模型就能融合RGB视觉、深度几何与语言指令信息,依次精准输出抓取、放置、导航所需的3D可执行坐标,无需任何额外处理,就能无误差、流畅地完成全流程操作,即便更换场景也能稳定执行,精准解决了传统VLM的核心痛点。


结语


三维交互预测是空间感知领域的核心瓶颈,也是推动空间智能从“感知理解”升级为“可执行、可落地、可闭环”的完整能力体系的关键一环。SpatialPoint致力于生成精准、度量级、可执行且具备强泛化能力的空间感知信息,补齐这一关键短板,不仅为具身智能提供更加可靠的决策依据与执行逻辑,同时也为世界模型构建完备统一的技术支撑。


此外,SpatialPoint在真实机器人平台上的落地与验证,持续为AI大脑提供高质量、可迭代的实测数据反馈,形成从模型到物理世界的闭环进化。


将深度信息作为VLM核心输入!视启未来×清华×IDEA帮机器人看懂物理世界

△ 图5 SpatialPoint致力于补齐AI与现实交互的短板


从空间感知到具身应用,再到世界模型,SpatialPoint以简洁高效的深度原生设计,推动人工智能向物理世界迈进。人工智能突破屏幕的边界,真正走进完整、开放、动态的物理世界,这一目标已触手可及。


项目主页:
https://qimingzhu-google.github.io/SpatialPoint/#


文章来自于"量子位",作者 "SpatialPoint团队"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner