RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图
5909点击    2026-06-10 14:40

机器人视觉语言动作(Vision-Language-Action, VLA)模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是,今天的大多数 VLA 更像 “展台机器人”。它们在固定场景、固定布局、固定光照下表现惊艳,可一旦真正进入开放环境,就立刻暴露其泛化性问题:物体位置变一点、背景换一下、光照改变一些,VLA 的成功率就会暴跌。对于新任务,往往需要重新收集大量示教轨迹(demonstration),才能让 VLA 学会。


但这些其实只是表面困境。真正困难的,也是 VLA 走向实际应用场景真正需要的,其实是:


  • 组合泛化(Compositional Generalization):VLA 学会 A、B、C 技能之后,能否自动组合出 A→B、B→C、C→A 等技能?即能否通过组合串联技能,执行长程、复杂的任务?
  • 小样本迁移(Few-shot / One-shot Transfer):学习新任务是否需要成百上千条演示?能不能像人类一样,看几次示教、甚至只看一次示教,就掌握一个新技能?


主流范式往往过度对齐原始轨迹本身,却缺少对 “轨迹背后意图” 的显式表征与推理,从而在泛化与迁移上受限。


针对上述问题,上海创智学院 × 上海交通大学 x 智动未来提出:


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


  • 项目主页:https://renming-huang.github.io/MINT/
  • Github 链接:https://github.com/RenMing-Huang/MINT
  • 论文链接:https://arxiv.org/abs/2602.08602


MINT 是一种面向强泛化、强迁移的 VLA 架构与训练范式。它的核心思想是:机器人不应该只模仿 “动作轨迹”,而应该分层次地理解:


  • 「在什么情形应当触发什么抽象行为 “意图”」
  • 「如何根据当前场景,动态地 “执行” 行为意图」


一旦 VLA 能显式理解和表征抽象的行为意图,长期困扰 VLA 的泛化性和迁移性问题,就可以打开新的解法。


频谱分解动作词元化(Spectrally Disentangled Action Tokenization)


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


MINT 的关键技术来自一个信号处理视角:动作轨迹可以被看作时间信号,天然具备频谱结构。


SDAT 把动作表征映射到多个尺度的词元:


  • 最粗粒度词元(S1 尺度):主要表征低频信号,对应全局行为意图,论文称做 “Intent token”
  • 更细粒度的词元(S2-SK 尺度):逐步补充高频执行细节,论文称做”Execution tokens”


S1-SK 尺度的词元数逐步增多,形成金字塔形状的词元表征体系。


那么,不同尺度的词元是如何与低频和高频信号建立对应关系的呢?


MINT 应用了如下技术:


  • 残差学习(residual learning):细尺度的词元只学习未被粗尺度词元捕捉的残差信息
  • 由粗到细多尺度重建(coarse-to-fine multi-scale reconstruction):各个尺度的前缀(prefix)词元集合,都会分别被用来进行轨迹重建,保障尽可能完整地表征轨迹信息。
  • 频域重建(frequency-domain reconstruction):MINT 在「频域空间」中计算轨迹重建损失,这使得低频、高频信号能被显式地拆解开来,按需融入到不同尺度的词元内。


如此,使得粗尺度词元专注于学习轨迹的大体形态,而细尺度词元则专注于补充轨迹细节。


策略学习:“意图→执行” 的逐步推理


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


在策略层面,MINT 采用 “Intent → Execution” 的分层生成:


先预测 Intent Token-> 再逐层生成 Execution Tokens-> 最后将多尺度词元解码为连续控制轨迹


这个由粗到细的过程相当于在词元空间里进行分步推理:先确定要执行的行为意图,再补上达到该意图所需的控制细节。这种方式可以提升学习效率,并在长程任务中带来更稳定的执行表现。


策略迁移:通过一次示教学会新任务


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


MINT 最有意思的部分来了:Intent Token 可以直接用于策略迁移。


既然 Intent Token 表示的是抽象 “行为意图”,那它就可以直接替代语言,作为「任务表达(task specification)」


这意味着,对于一个全新任务,模型不需要重新训练:只要提供一条示教轨迹,提取其 Intent Token,并将该 Token 注入到策略的生成过程中,模型就能在相同的推理框架下生成对应的执行细节并完成任务。


由于注入的是更抽象的意图而不是整段轨迹细节,这种迁移方式在跨任务、跨场景时更容易保持稳定。论文将这一能力称为:「One-shot Transfer via Intent Token Injection」 而这也是 MINT 最重要的创新之一。


实验结果


一、基准任务性能:全面超越 SOTA 方法


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


在 LIBERO、CALVIN 和 MetaWorld 三个基准上,MINT 的性能全面超越了当前的 SOTA 方法:


  • 在 LIBERO 上,30M 参数的 MINT-30M(不包含预训练 VLM)平均任务成功率达到 97.1%,大幅超越 SmolVLA 的 88.8%;4B 参数的 MINT-4B(有预训练 VLM)平均成功率达到 98.3%,超越了 π₀.₅ 的 96.9%;
  • 在 CALVIN 上,MINT-4B 在长序列任务中表现尤其出色,性能显著超过 SOTA,验证了其长程执行稳定性;
  • 在 MetaWorld 的 “极难” 类任务上,MINT-4B 的成功率接近 π₀ 的三倍,展现出在复杂长程任务中的显著优势。


二、泛化性:对抗分布外强扰动


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


在更强调分布外鲁棒性的测试中,作者在 LIBERO 上训练、并在分布更广的 LIBERO-Plus 上评估,考察相机视角、初始姿态、光照、背景纹理与视觉噪声等多类强扰动。


  • 面对相机视角变化时,MINT 的性能损失远小于 OpenVLA、π₀.₅ 等主流方法。
  • 面对背景、布局、光照、视觉噪声等强干扰时,MINT 依然维持了 84.6%-96.6% 的高任务完成率。


这些结果都印证了:“行为意图认知” 对于提升 VLA 泛化性的关键作用


三、技能迁移:只需要演示一次


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


现有的迁移方法无论是通过微调(fine-tuning)还是重扩散(re-diffusion),在只有单条示教轨迹的条件下,都很难完成迁移。而 MINT 通过 Intent Token Injection,能稳定完成新任务迁移、新场景迁移:


  • 对于新任务,MINT 用一条示教轨迹,就能达到 90% 的任务成功率,而通过微调迁移的成功率只有 42%。
  • MINT 展现出组合泛化(Compositional Generalization)的潜力。例如,训练中只见过 A 和 B 两个技能,但通过一次演示,MINT 能直接完成 A→B 这样的组合任务。这也是当前 VLA 极少展示出的能力。


四、真机验证:物理世界的高效落地


研究团队进一步在真实的 Piper-X 6DoF 机械臂上进行了真机实验。训练任务包括抓放香蕉、堆叠积木、插马克笔等,各提供了仅 20 条示教轨迹供模型后训练。测试任务还包含了从未见过的叠杯子任务,用以测试零样本泛化。


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


RSS2026 | 强泛化强迁移VLA,上海创智学院×上海交大提出MINT:让VLA从模仿轨迹走向理解意图


结果显示:


  • MINT-4B 的整体成功率相比 π₀.₅ 等主流 VLA 模型提升了 29%;
  • MINT-4B 在叠积木、插马克笔等任务中表现出更强的精确操作能力;
  • MINT 能够把 “堆叠” 这一抽象意图,从叠积木任务迁移到从未见过的叠杯子任务上。而 π₀ 等方法则几乎无法完成该未见任务。


这些真机结果进一步证明:MINT 学到的,已经不是单纯的轨迹,而是真正可迁移的行为结构。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner