如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

8752点击 2026-03-08 10:38

是不是经常纠结于 VLA（视觉 - 语言 - 动作）模型的训练技巧？面对层出不穷的 VLA 算法，是不是常常感到眼花缭乱，不知道哪种数据模态、训练策略最有效？

别急，丰田研究院（TRI）和清华大学刚刚发布了一份「保姆级」教程。为了搞清楚这些问题，他们真的「拼了」—— 这项研究使用了 4000 小时的机器人与人类操作数据，5000 万个视觉 - 语言样本，训练了 89 个不同的策略模型，并在 58000 次仿真评估和 2835 次真机测试中进行了验证。

这不仅仅是一篇论文，更是一份关于大型行为模型（Large Behavior Model，LBM）训练数据与策略的避坑指南。

先来看看这个 Demo：得益于 Co-training 打下的坚实基础，这是模型在解锁从未见过的长程、灵巧操作任务时的表现：

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

本研究的核心聚焦于 Co-training（协同训练）。简单来说，就是别只盯着昂贵的机器人数据薅羊毛。Co-training 主张让机器人「博采众长」，同时从目标机器人的数据和其他异构数据模态（比如互联网上的图文数据、人类视频、其他机器人的数据、离散动作表征）中学习。

这听起来很完美，但在 TRI 这篇论文出来之前，并没有人系统性地告诉我们：到底哪种「外援」数据最好用？怎么用才最有效？

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

论文链接： https://arxiv.org/abs/2602.01067
项目主页： https://co-training-lbm.github.io/

五大模态，三种策略：地毯式搜索「最佳配方」

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

为了找到训练 VLA 的「圣杯」，研究团队系统地研究了以下五种 Co-training 数据模态：

标准视觉 - 语言数据：包含 VQA、图像描述等，提供常识、空间推理和物体定位能力；
机器人轨迹的语言标注：包括基于规则的脚本生成，以及利用 GPT-5 生成的富语义描述，提供显式的语义监督；
跨具身机器人数据：来自 Open X-Embodiment 等数据集，包含不同形态机器人的数据，引入多样化的物理交互先验；
人类视频：利用海量第一视角视频，通过提取「潜在动作（Latent Actions）」或利用 GPT-5 生成语言标注来利用；
离散机器人动作 Token：将连续动作压缩为离散 Token（如 FAST 或 VQ-VAE），探究动作离散化建模的有效性。

团队也对比了三种训练策略：

单阶段协同训练 (Single-phase)：将目标机器人数据与协同训练数据混合，进行联合训练；
两阶段 - 仅首阶段协同 (Two-phase 1st-phase-only)：第一阶段使用协同数据进行预训练，第二阶段仅使用目标机器人数据进行微调；
两阶段 - 全协同 (Two-phase full)：第一阶段同上，但在第二阶段微调时，继续保留协同数据（以一定比例混合），以缓解灾难性遗忘。

精巧的模型架构

TRI 采用了 VLM + Action Flow Transformer 的架构。与 π0 等架构不同，本文并没有使用所有层的 KV，而是通过一个特殊的 Observation Encoding Token 来压缩视觉语言特征。实验证明，这种压缩的单 token 的表征方式，比复杂的全量特征在泛化性上更强！

实验结果：谁是「真大腿」，谁是「伪概念」？

为了验证上述模态与策略的有效性，研究团队进行了史上最大规模的系统评估，涵盖了分布内任务、分布外场景、未见任务以及真机环境下的语言指令跟随能力。

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

对所有模态的模拟器实验

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

对有效模态的真机实验

红榜：泛化能力的「硬通货」

1.引入「多样的视觉 - 语言数据」和「跨具身机器人数据」，能显著提升模型对分布外场景、未见任务以及语言指令跟随的适应能力。

2. 不同模态的「最佳打开方式」不同：

全阶段受益：得益于丰富的信息量，「标准视觉 - 语言数据」和「人类视频的语言标注」，无论是在两阶段训练的「第一阶段」还是「第二阶段」加入，都能带来收益；
仅首阶段受益：相比之下，「机器人轨迹的语言标注」和「跨具身机器人数据」，主要在「第一阶段」发挥作用。

3. 「三巨头」揭示了 VLM 的本质：在所有有效的协同训练模态中，「标准视觉 - 语言数据」「VLM 生成的机器人数据标注」，以及「人类视频的语言标注」效果最为显著。这三者本质上都属于多样的视觉 - 语言数据，这有力地证明了：增强 VLM 基座的视觉 - 语言理解能力，能够直接转化为更强的机器人策略。

黑榜：离散动作 Token 的「祛魅」时刻

尽管「动作 Token 化」是近期的研究热点，但本研究发现：

离散动作 Token (包括从视频提取的 Latent Actions, FAST Token, VQ-VAE Token)：协同训练实验中并未带来统计学意义上的显著提升；
FAST Token 的副作用：具体来说，使用 FAST Token 协同训练甚至会降低模型的泛化性；
Latent Actions 的局限性：从视频中提取的 Latent Actions 仅在目标机器人数据匮乏时有效；一旦机器人数据量增加，其带来的收益便迅速递减。

值得注意的是，无论引入何种协同训练数据，对于训练集中已经见过的任务，性能基本维持不变。Co-training 的核心价值在于提升「泛化性」。

组合模态的威力与模型表征的质变

既然明确了有效模态，将它们组合起来是否有累积效应？答案是肯定的。

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

研究团队将所有有效模态组合训练得到的模型，在各项指标上全面超越了仅用机器人数据训练的模型。特别是在真实世界的语言指令跟随任务中，平均完成率提升了 45.3%；在仿真环境的未见任务中，成功率提升了 36.4%。

Co-training 的价值远不止于此，它还极大提升了模型的表征质量与快速适应能力。在微调实验中，仅使用 200 条演示数据，经过 Co-training 的模型就能迅速掌握全新的长程灵巧操作任务（如收纳袋子、整理碗碟），展现出远超无 Co-training 模型的动作精度与稳定性。

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

除了下游的机器人操作性能，研究团队还深入分析了 Co-training 如何重塑 VLM 主干网络。团队在涵盖语义理解、空间推理和长程推理的一系列标准视觉 - 语言基准上，对策略模型中提取出的 VLM 进行了评测。

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

实验结果显示，未经过 Co-training 的模型在通用视觉语言基准上分数大幅下降，而有效的 Co-training 能够帮助模型保留这些理解能力。经过 Co-training 的模型不仅保留了通用的视觉语言能力，甚至在空间推理等维度上优于原始的 VLM 权重。

这证明：一个保持了世界理解能力的 VLM Backbone，是构建高性能机器人策略的基础。

CoT (思维链) 失灵了？

鉴于 VLM 强大的推理能力，显式地进行「思维链（CoT）」推理是否能提升性能？

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

研究团队尝试让模型在输出动作前，先显式生成从 Co-training 数据中学到的中间推理步骤。

结果令人意外：与仅将 CoT 内容作为辅助训练目标相比，显式 CoT 条件化并没有带来性能提升。可见对于目标明确、反馈即时的物理操作任务，Co-training 带来的隐式推理已经足够。

这篇论文的内容远不止于此。除了上述结论，文中还包含了大量关于：

模型架构的详细消融实验（为什么单 Token 表征更好？）
超参数的精细调节（Loss 权重怎么设？数据配比多少最合适？）
统计学上的严谨验证。

如果你正致力于训练通用的机器人大脑，这篇论文绝对值得加入你的必读列表！

关于作者

如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

本研究的第一作者是林凡淇，清华大学交叉信息研究院二年级博士生，师从高阳教授。该工作是他在丰田研究院（TRI）LBM 团队实习期间完成的。

他的研究聚焦于具身智能与机器人学习，致力于利用大规模数据与基础模型，使机器人获得人类水平的操作能力。他的多篇论文发表于 ICLR、CoRL、ICRA、IROS 等顶级会议，并多次获得 Best Paper 或 Oral 荣誉。其代表性工作包括 Co-training LBMs、OneTwoVLA、Data Scaling Laws 等，主要围绕大规模具身模型（如 VLA）与数据的构建展开。

文章来自于微信公众号 “机器之心”，作者 “机器之心”

关键词: 模型训练 , 人工智能 , Co-training , 具身智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner