新年第一周，智元这次发布，显露了雄心

8513点击 2026-01-07 09:36

现实世界不是 demo，人形机器人该如何进入真实世界？

新年第一周，智元这次发布，显露了雄心

2025 年，具身智能领域的前进速度可以说是踩了「油门」的，各种形态、各种尺寸的人形机器人产品出现在了市面上，纷纷往「商业化闭环」这个目标上狂奔。

越来越多人将目光投向了这个领域，大家都在尝试解答一个关键问题：

当人形机器人不再被尺寸和成本限制，真正进入真实世界，会发生什么？

在这一背景下，智元机器人具身研究中心在年初正式发布了一套名为 SOP（Scalable Online Post-training）的机器人在线学习框架。

这也呼应了我们在「十字路口」的《2026 开年 AI 对谈》播客中，戴雨森提到的判断：在 pre-training 和 post-training 之外，真正决定下一阶段上限的「第三个口袋」，很可能是 Online Learning——系统在真实运行中，持续吃反馈、即时校准自身行为的能力。

用雨森当时的话说，真正的问题不是模型还能不能更大，而是有没有一个「第三个口袋」——Online Learning，让系统在部署之后，仍然处在学习之中。

可以说，智元这次发布的 SOP 试图回答的，是更底层、也更长期的问题：机器人在部署之后，如何在复杂、不可控的现实环境中保持可靠，并且越用越聪明。

接下来，我们不打算复述论文里的技术细节。

相比参数，我们更想从一个大的视角出发，分享我们对这次 SOP 发布的一些理解。

可是，现实世界不是 demo

过去的一年，算是人形机器人「狂飙突进」的一年。

我们在英伟达的 GTC 大会上看到它们成排站立，在特斯拉的视频里看到它们叠衣服，在无数创业公司的 Demo 中看到它们后空翻、甚至煮咖啡。

新年第一周，智元这次发布，显露了雄心

单从视觉上，它们看起来确实越来越「像回事」了。似乎只要再过几个月，它们就能走进我们的厨房，接管一些真实场景下的任务。

但一个容易被忽略的事实是：这些展示，「99% 」都发生在「可控环境」中。

灯光、地面、道具、流程，可能都经过设计，失败的镜头可能会被剪掉，意外可能会被提前规避。

可是，现实世界，从来不是 Demo 场。

比如说，家里客厅的可乐罐可能是被捏扁的、地毯可能是卷边的，即便是屋内的光线也会时刻变化，开灯不开灯、窗帘是否会挡住屋外的阳光等等，甚至还有个最大的变量：人。

孩子会突然冲过来，工人会改变工件的摆放位置，有人会不小心挡住机器人的行走路线。

新年第一周，智元这次发布，显露了雄心

在这样的环境中，实验室里表现很稳定的机器人，一旦走向真实场景，失效经常是集中、重复出现的。

如果，问题不再发生在「一台机器」上呢？这时候可能才是真正的麻烦。

当你部署的不是一台，而是几十台、几百台、甚至上千台机器人时，每一个小概率的失败，都会被放大。

对于 C 端用户、甚至是 B 端用户而言，这就很直观了，就叫「不可用」。

所以，一个问题很明显，本质上也确实是一个范式问题：

机器人，究竟应该在什么时候「学会」真实场景？

到底是在实验室里一次性训练学完，还是在真实世界中边运行、边修正、边成长？

这个问题，决定的人形机器人能否「真正长期存在于现实世界之中」。

那么，过去两年，机器人是怎么学的？

主流路径其实很清晰：离线模仿学习。

人类先在理想环境中示范任务，通过各种方式，采集高质量数据，再用这些数据去训练「视觉-语言-动作模型（VLA）」。

新年第一周，智元这次发布，显露了雄心

模型训练完成后，数据被「冻结」，然后部署。

这套方法，在早期确实很有效。但问题也同样明显，简单来说，大致有 3 点：

【1】离线数据只能覆盖「理想、标准的行为」。

说白了，人类示范，本质上是一种「先验筛选」。它很难覆盖真实世界中大量不优雅、不标准、不按流程来的情况。

一个简单的例子，人类操作员往往会穿戴动捕设备，或者使用遥操作手柄，在理想环境中示范某个任务（比如抓取一个苹果）。

但是，当苹果没这么「理想」，变成了「被吃掉一半」的苹果，那么数据就算是「失败一半」了。

【2】模型越强，「长尾场景失效」越频繁，边际成本也越来越高。

简单说就是，当模型准确率从 0% 提升到 90% 时，通用的离线数据很管用。但当你要从 99% 提升到 99.99% 时，剩下的错误往往集中在很少数、很难去复现的「长尾场景」。

为了修复这 0.01% 的错误，你可能需要专门去采集针对该场景的数据。

「为了这盘醋，包了这盘饺子」这个梗，在这里就很适用。

所以说，修复一个新失败场景，可能需要成倍的人工成本。

【3】静态模型无法应对动态世界。

这就引出了一个核心矛盾点：离线学习，本质上是在用「过去的世界」，猜「未来的世界」。

只要模型在部署那一刻数据是「冻结」的，它就开始过时了。真实世界不按脚本 Demo 运行，光线在变，布局在变，物体在变。

如果每一次遇到新问题，都要把人形机器人拉回实验室，重新采集数据，重新训练模型，再重新部署 OTA……

这个迭代周期太长了，长到根本无法支撑商业化落地。

所以，大家认为需要一种新的解法。

智元这会发布的 SOP 到底是什么？

在这样的背景下，智元机器人提出了 SOP（Scalable Online Post-training，可扩展在线后训练）。

新年第一周，智元这次发布，显露了雄心

简单说，在传统的人形机器人生命周期里：开发 → 训练 → 部署 → 结束。

在 SOP 里：开发 → 预训练 → 部署 → 真正的学习开始。

SOP 核心思想很简单：

机器人可以带着并不完美、只有 60 分的模型上线。部署不再意味着开发的结束，相对于以前的「数据冻结」，现在则是大规模数据获取的开始。

真实世界本身，成为了最大的训练场。

我们根据目前的技术资料，整理了下。

SOP 的具体运行逻辑构建了一个「现实世界 → 云端学习 → 即时回流」的闭环：

新年第一周，智元这次发布，显露了雄心

【1】并行执行

多台机器人在真实世界中执行任务。

【2】数据回传

所有的执行轨迹（不仅是成功的，更重要的是失败的、卡顿的、被人工接管纠正的）被实时上传到云端。

【3】在线更新

云端的算力利用这些「真实且实时的数据」对模型进行微调或强化学习。

新年第一周，智元这次发布，显露了雄心

【4】参数同步

新学到的能力参数，在分钟级甚至秒级同步回所有的机器人终端。

这个过程中，有几个点很关键，就是：可扩展、并行。

下面这张图，是我找到的智元机器人 SOP 的流程示意图：

新年第一周，智元这次发布，显露了雄心

简单来说，这就是一个机器人团队的工作方式。

每个机器人都有自己要做的任务，有的是「补货」或者「挑选物品」任务。

商超任务里的「补货」或者「挑选物品」，其实考察的就是模型的语义泛化能力。你得能分辨数百种商品，还有不同类型的货架，关键是要能听懂人类的指令，从一堆堆的东西中找到对的那个，完成任务。

而有的任务，比如叠衣服或者组装东西，这些任务需要更精细的技能和长时间的操作。

新年第一周，智元这次发布，显露了雄心

在「叠衣服扰动」场景下，SOP 的优势会更明显一点：

新年第一周，智元这次发布，显露了雄心

而且通过 SOP，人形机器人叠衣服和叠纸盒任务可以连续执行 36 小时。

叠衣服任务：

新年第一周，智元这次发布，显露了雄心

叠纸盒任务：

新年第一周，智元这次发布，显露了雄心

这些机器人不仅仅是单独工作的，它们是在一个分布式的团队里，每个机器人都共享一套相同的策略。

它们在真实的环境中执行任务，然后把所有的经验数据都传回到云服务器，服务器会分析这些数据，帮机器人优化操作方法。

然后，机器人就会根据这些新学到的东西，变得越来越聪明，能处理更多不同的任务。

所以，为什么一定要强调并行和分布式？

如果只有一台机器人在线学习，它往往会遇到一个问题，就是只专注于这一个问题的学习、解决。

这个过程很慢，而且它很容易陷入「局部最优解」。

因为它见过的场景太少了。它可能会错误地以为「只要是红色的东西都不能碰」，因为昨天碰了一个红色的易碎的杯子。

但当你有 100 台、1000 台机器人同时在线时，情况完全不同了。

首先，云端模型能够在短时间内，看到各种机器人在各种场景下遇到的状态和问题。

其次，机器人 A 犯的错，被云端纠正后，机器人 B 立刻就学会了避免这个错误。达到同样的成功率，单机可能需要运行 1000 小时，而 100 机器并行的集群可能只需要 10 小时。

新年第一周，智元这次发布，显露了雄心

规模，在这里不再是负担，而是能力本身。

新年第一周，智元这次发布，显露了雄心

总的来看，SOP 的价值点之一就是让「机器人」对「数据」的定义，发生了变化。

在过去，只有经过清洗的、专门去采集的数据才叫「训练数据」。真实环境中的数据往往被视为噪声，被视为干扰项。

而在 SOP 架构下，现实世界经验，成为了可资产化的训练资源。

这与 LLM 的发展其实很像，在 GPT 3 之后，LLM 的进步很大程度上归功于 RLHF（人类反馈强化学习）。模型不仅仅是在看书（预训练），更是在看人类如何评价它的回答（反馈）。

虽然现在这个节点下，「预训练已死」这个观点，已经被 Gemini 3 系列证伪了，OpenAI 也开始公开承认预训练依然很重要，但强化学习的重要性依然是是 TOP Priority 之一。

新年第一周，智元这次发布，显露了雄心

从某个角度看，SOP 可能就是机器人领域的 RLHF，而且是基于物理世界反馈的 RLHF。

而且，一件很有意思的事情也出现了：负反馈，也不是坏事了。

当技术成熟后，每一次机器人伸手抓空，都可能会是一次负反馈，每一次机器人成功完成任务但耗时过长，都是一次优化的好机会。

外界的「噪音」，现在将可能会是人形机器人的「强化学习动力」。

所以，现在再回头看看 SOP，就会很有意思。

SOP 将会在一定程度上降低了人形机器人进入真实环境（家庭、办公室、商场）的门槛，因为它在「具体的机器人」的「分发基础上」，支撑了「不断进化」的能力。

或许，真正的人形机器人时代，并不是从「站起来」的那一刻开始的。

相反，是从它们学会在现实世界中持续学习的那一天。

文章来自于“十字路口Crossing”，作者 “镜山”。

关键词: AI新闻 , 具身智能 , SOP , 机器人在线学习框架

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner