VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%
5782点击    2026-03-26 10:48

“把水果放进盘子里”——机器人看懂了指令,开始执行,却在最后关头抓偏了。


这不是能力不够,而是它在关键时刻“走神了”


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%


至简动力、北大、港中文的研究团队发现:VLA模型在深层动作预测时,对关键视觉区域的依赖会持续下降。换句话说,模型不是一开始看不清,而是越到后面越容易“丢”掉关键视觉证据。


研究团队提出的DeepVision-VLA框架,给VLA装上一个即插即用的“视觉增强器”:用视觉基础模型在深层注入高质量特征,同时让浅层的动作注意力来指导筛选哪些视觉信息值得传下去。


效果在仿真和真实任务中都有体现:RLBench模拟器上平均成功率83%,真实世界任务91.7%,相比Pi0.5分别提升18%和7.5%。在未见过的背景和光照条件下,性能依然稳定。


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%


近日,至简动力、北京大学计算机学院多媒体信息处理国家重点实验室、香港中文大学,提出了DeepVision-VLA:一种面向机器人操作的视觉增强VLA框架。


研究核心目标不是简单再加一个视觉模块,而是回答一个更本质的问题:


当VLA在深层动作决策时逐渐“看不清”关键目标,能不能把高质量视觉信息重新注入进去?


围绕这个问题,研究团队首先系统分析了多个代表性VLA模型内部的视觉利用机制,发现其深层动作预测对关键视觉token的敏感性持续下降;随后提出了Vision-Language Mixture-of-Transformers(VL-MoT)框架,以及Action-Guided Visual Pruning(AGVP)策略,在保持计算开销可控的前提下,让模型在关键时刻重新聚焦任务相关区域。


最终,DeepVision-VLA在仿真与真实机器人任务中都取得了显著提升:在RLBench模拟器上达到83%平均成功率,在真实世界任务中达到91.7%平均成功率,相较于Pi0.5分别有18%和7.5%的成功率提升。


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 图1:DeepVision-VLA整体框架示意图。


(a)在原始VLA模型中,模型对任务相关视觉token的依赖会随着层数加深而逐渐减弱,从而导致深层动作预测对视觉信息的敏感性下降。


(b)针对这一问题,DeepVision-VLA提出视觉-语言混合Transformer框架,将视觉基础模型的多层级视觉特征注入VLA主干网络深层,以增强模型对精细复杂操作所需视觉信息的表征能力。


(c)基于上述设计,DeepVision-VLA在多项真实世界操作任务中取得了更优的性能。


核心观察与研究动机


过去很多工作都在增强VLA的视觉能力,例如引入视觉提示、增加辅助视觉目标、融合更多模态信息,或者通过未来状态建模提升动作生成效果。


但这些方法大多默认了一件事:


只要视觉信息被编码进模型,后续动作预测自然会持续利用这些视觉证据。


这件事其实并不显然。VLA的动作生成通常依赖由多层Transformer堆叠而成的LLM backbone。从结构上看,视觉信息往往只在前部进入模型,随后需要随着层间传播不断参与后续动作预测。


因此,一个更本质的问题是:视觉信息在VLA内部究竟是如何被利用的?它会不会在深层逐渐被削弱?


为回答这个问题,研究团队没有把VLA当作“黑盒”,而是对其内部层级行为进行了系统分析。


团队选择了三类具有代表性的VLA模型:


OpenVLA

π

QwenVLA-OFT


它们覆盖了不同的LLM backbone、模型深度和动作生成范式。研究团队的目标不是比较谁更强,而是回答一个更基础的问题:当模型一层一层往后推理时,动作预测到底还在多大程度上依赖任务相关视觉区域?


为了更准确地理解VLA的内部视觉利用机制,团队设计了两个互补的probing实验:


  • 一个用于观察 不同层visual token对动作预测的贡献分布
  • 一个用于量化 动作预测对任务关键视觉区域的敏感性
  • 这两个实验分别回答两个不同的问题:
  • 模型在这一层“主要依赖图像中的哪里”?
  • 如果把这些关键视觉区域拿掉,动作预测到底会受到多大影响?


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 图2:VLA模型中视觉grounding的层间分析。


上:在不同层对ROI视觉token进行掩蔽时,动作预测误差(MSE)变化。在浅层掩蔽关键视觉token会显著恶化动作预测,而这一影响在深层逐渐减弱。


下:不同层的Grad-CAM注意力可视化结果。浅层注意力主要聚焦于任务相关区域,而在深层中逐渐趋于弥散,说明模型对关键视觉区域的grounding能力随层数加深而减弱。


实验一:基于Grad-CAM的层级visual token贡献分析


浅层动作表示仍然建立在较强的任务视觉grounding之上,但到了深层,动作预测对关键视觉证据的依赖开始减弱。


换句话说,问题不是模型完全“看不见”,而是:


越到后面,动作决策越不再强依赖最关键的视觉区域。


实验二:ROI visual token masking,定量测量动作预测的视觉敏感性


仅靠可视化还不够。贡献图可以显示“看起来模型在关注哪里”,但它不能直接定量说明:这些区域对动作预测究竟有多重要。因此,团队进一步设计了一个更严格的层级干预实验:ROI visual token masking


实验结果同样呈现出稳定一致的层级趋势:


  • 在浅层,mask掉ROI tokens会显著增大动作预测误差,说明这些层高度依赖任务关键视觉信息
  • 随着层数加深,这种影响持续减弱
  • 在更深层,即使移除较大比例的ROI tokens,动作预测变化也已经相对有限


这一结果比单纯的可视化更进一步,定量证明了:任务相关视觉线索在VLA深层中被逐渐“低利用化”了。


DeepVision-VLA即插即用框架


基于上述分析,团队的目标就变得非常明确:


既然问题出在深层动作预测对关键视觉区域不再敏感,那么改进方向就不应只是增强输入视觉编码,而应直接增强深层的视觉表征能力。


基于这一思路,研究团队提出DeepVision-VLA。其核心思想是:在保留原始VLA结构的基础上,引入一个更强的视觉专家,并让它在深层与VLA backbone协同工作,从而在最容易发生视觉退化的位置补充高质量视觉证据。整个方法由两个关键设计组成:


Vision-Language Mixture-of-Transformers(VL-MoT)

Action-Guided Visual Pruning(AGVP)


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 图3:DeepVision-VLA框架概览。


(a)通过所提出的视觉-语言混合Transformer(Vision–Language Mixture-of-Transformers,VL-MoT)框架,将高分辨率视觉专家与LLM主干网络进行耦合,其中LLM深层与视觉专家共享注意力,从而增强动作预测中的视觉grounding能力。


(b)利用LLM浅层的action-to-vision注意力聚合得到任务相关区域,并在特征融合前据此对视觉专家token进行剪枝。


(c)视觉专家token采用双向注意力机制,以保留其预训练表征能力;VLA token对prompt token采用因果注意力,对action token采用双向注意力,以支持并行的动作预测。


VL-MoT:深层特征建立共享注意力


该方法建立在自定义基线QwenVLA-OFT之上。在此基础上,团队引入一个高分辨率视觉专家DINOv3,并提出Vision-Language Mixture-of-Transformers(VL-MoT)。它的核心不是把视觉专家特征直接拼接到输入,而是让视觉专家和VLA深层在attention层面进行更紧密的协同。


具体来说,VL-MoT将视觉专家的多层特征与VLA深层进行对齐,并在深层模块中引入Vision-Language Shared Attention。在这一机制下:


  • VLA深层可以直接访问来自视觉专家的高质量视觉表征
  • 视觉专家分支仍保持自己的表示能力,不会被简单拼接后淹没
  • 视觉增强被精准地放在“最需要它的深层动作预测阶段”,而不是停留在浅层输入级融合


这也是VL-MoT与常见早期融合方式的根本区别。问题不只是“有没有用额外视觉特征”,而是:


这些特征有没有在正确的位置、以正确的方式参与动作生成。


AGVP:让VLA浅层的有效grounding来指导深层视觉筛选


尽管高分辨率视觉专家能够提供更强表征,但如果把全部token全部送入深层,也会带来两个问题:


  • 大量背景与无关区域会引入噪声
  • 计算成本会迅速增加


因此,团队进一步提出Action-Guided Visual Pruning(AGVP)。AGVP的核心思想来自前面的probing结果:虽然深层视觉敏感性下降,但浅层仍保留着较强的任务视觉grounding。因此,研究团队利用浅层的action-to-vision响应来估计“当前动作真正关心哪些视觉区域”。


具体来说,AGVP会:


  1. 从若干浅层提取action-conditioned的视觉响应图
  2. 对这些浅层结果进行聚合
  3. 将聚合后的相关性映射到视觉专家的高分辨率token空间
  4. 只保留top-K最相关tokens,再送入深层模块


这样一来,深层获得的不是“整张图的全部视觉信息”,而是:由浅层动作grounding筛选过的高价值视觉证据。


这一步非常关键,它不仅降低了冗余和计算开销,也使视觉增强真正与“当前动作需要什么”对齐。


实验结果


仿真实验


团队在RLBench的10个机器人操作任务上系统评估了DeepVision-VLA。结果显示,模型达到83%的平均成功率,并显著超过多种代表性基线。更重要的是,这种提升在视觉要求更高的任务中尤其明显。例如需要更强空间定位能力和交互判断能力的任务,性能提升往往比平均提升还要更大。这说明DeepVision-VLA并不是简单提高平均分,而是真正增强了模型在复杂视觉场景中的操作能力。


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 表1:DeepVision-VLA与各基线方法在RLBench上的性能对比。


所有方法均在多任务设置下进行训练,评价指标为平均成功率


真机实验


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 图5:真实世界单臂机器人任务执行过程可视化(从左到右)。


在真实世界实验中,团队基于真实机器人平台评估了多项复杂操作任务,例如抓取放置、堆叠、书写和倒液体等。


这些任务不仅要求识别目标,还要求模型持续跟踪边界、相对位置以及机械臂与物体之间的交互关系。


最终,DeepVision-VLA在真实世界任务中取得了91.7%的平均成功率,展现出更强的精细操作能力和执行稳定性。这一结果说明,深层视觉增强不仅在仿真里有效,也能迁移到真实世界复杂操作中。


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 表2:不同真实世界操作任务上的性能对比。Step表示整体任务中的原子子任务,Avg表示平均成功率。该方法基于QwenOFT-VLA构建。


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%


泛化实验


为了验证方法是否真正提升了视觉建模能力,团队进一步测试了零样本泛化性能,重点考察两类常见扰动:


未见背景


未见光照条件


结果显示,DeepVision-VLA在这些扰动下仍能保持更稳定的操作表现。这表明,该方法增强的不只是任务记忆,而是模型对任务关键视觉结构的稳定提取能力。也就是说,DeepVision-VLA带来的不是“在固定环境里做得更熟练”,而是:


环境变了,模型依然更容易看对关键区域。


VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%

 表3:泛化场景示意图。


图中展示了未见测试条件,其中Background和Lighting分别表示新的环境布局和变化的光照条件。DeepVision-VLA在这些扰动下仍表现出稳健的视觉增强能力,并能够保持精确的操作性能。


论文链接:
https://arxiv.org/pdf/2603.15618v1
项目主页:
https://deepvision-vla.github.io/


文章来自于“量子位”,作者 “DeepVision团队”。

关键词: AI , 模型训练 , VLA , AI视频
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0