现实世界不是 demo,人形机器人该如何进入真实世界?

2025 年,具身智能领域的前进速度可以说是踩了「油门」的,各种形态、各种尺寸的人形机器人产品出现在了市面上,纷纷往「商业化闭环」这个目标上狂奔。
越来越多人将目光投向了这个领域,大家都在尝试解答一个关键问题:
当人形机器人不再被尺寸和成本限制,真正进入真实世界,会发生什么?
在这一背景下,智元机器人具身研究中心在年初正式发布了一套名为 SOP(Scalable Online Post-training)的机器人在线学习框架。
这也呼应了我们在「十字路口」的《2026 开年 AI 对谈》播客中,戴雨森提到的判断:在 pre-training 和 post-training 之外,真正决定下一阶段上限的「第三个口袋」,很可能是 Online Learning——系统在真实运行中,持续吃反馈、即时校准自身行为的能力。
用雨森当时的话说,真正的问题不是模型还能不能更大,而是有没有一个「第三个口袋」——Online Learning,让系统在部署之后,仍然处在学习之中。
可以说,智元这次发布的 SOP 试图回答的,是更底层、也更长期的问题:机器人在部署之后,如何在复杂、不可控的现实环境中保持可靠,并且越用越聪明。
接下来,我们不打算复述论文里的技术细节。
相比参数,我们更想从一个大的视角出发,分享我们对这次 SOP 发布的一些理解。
过去的一年,算是人形机器人「狂飙突进」的一年。
我们在英伟达的 GTC 大会上看到它们成排站立,在特斯拉的视频里看到它们叠衣服,在无数创业公司的 Demo 中看到它们后空翻、甚至煮咖啡。

单从视觉上,它们看起来确实越来越「像回事」了。似乎只要再过几个月,它们就能走进我们的厨房,接管一些真实场景下的任务。
但一个容易被忽略的事实是:这些展示,「99% 」都发生在「可控环境」中。
灯光、地面、道具、流程,可能都经过设计,失败的镜头可能会被剪掉,意外可能会被提前规避。
可是,现实世界,从来不是 Demo 场。
比如说,家里客厅的可乐罐可能是被捏扁的、地毯可能是卷边的,即便是屋内的光线也会时刻变化,开灯不开灯、窗帘是否会挡住屋外的阳光等等,甚至还有个最大的变量:人。
孩子会突然冲过来,工人会改变工件的摆放位置,有人会不小心挡住机器人的行走路线。

在这样的环境中,实验室里表现很稳定的机器人,一旦走向真实场景,失效经常是集中、重复出现的。
如果,问题不再发生在「一台机器」上呢?这时候可能才是真正的麻烦。
当你部署的不是一台,而是几十台、几百台、甚至上千台机器人时,每一个小概率的失败,都会被放大。
对于 C 端用户、甚至是 B 端用户而言,这就很直观了,就叫「不可用」。
所以,一个问题很明显,本质上也确实是一个范式问题:
机器人,究竟应该在什么时候「学会」真实场景?
到底是在实验室里一次性训练学完,还是在真实世界中边运行、边修正、边成长?
这个问题,决定的人形机器人能否「真正长期存在于现实世界之中」。
主流路径其实很清晰:离线模仿学习。
人类先在理想环境中示范任务,通过各种方式,采集高质量数据,再用这些数据去训练「视觉-语言-动作模型(VLA)」。

模型训练完成后,数据被「冻结」,然后部署。
这套方法,在早期确实很有效。但问题也同样明显,简单来说,大致有 3 点:
【1】离线数据只能覆盖「理想、标准的行为」。
说白了,人类示范,本质上是一种「先验筛选」。它很难覆盖真实世界中大量不优雅、不标准、不按流程来的情况。
一个简单的例子,人类操作员往往会穿戴动捕设备,或者使用遥操作手柄,在理想环境中示范某个任务(比如抓取一个苹果)。
但是,当苹果没这么「理想」,变成了「被吃掉一半」的苹果,那么数据就算是「失败一半」了。
【2】模型越强,「长尾场景失效」越频繁,边际成本也越来越高。
简单说就是,当模型准确率从 0% 提升到 90% 时,通用的离线数据很管用。但当你要从 99% 提升到 99.99% 时,剩下的错误往往集中在很少数、很难去复现的「长尾场景」。
为了修复这 0.01% 的错误,你可能需要专门去采集针对该场景的数据。
「为了这盘醋,包了这盘饺子」这个梗,在这里就很适用。
所以说,修复一个新失败场景,可能需要成倍的人工成本。
【3】静态模型无法应对动态世界。
这就引出了一个核心矛盾点:离线学习,本质上是在用「过去的世界」,猜「未来的世界」。
只要模型在部署那一刻数据是「冻结」的,它就开始过时了。真实世界不按脚本 Demo 运行,光线在变,布局在变,物体在变。
如果每一次遇到新问题,都要把人形机器人拉回实验室,重新采集数据,重新训练模型,再重新部署 OTA……
这个迭代周期太长了,长到根本无法支撑商业化落地。
所以,大家认为需要一种新的解法。
在这样的背景下,智元机器人提出了 SOP(Scalable Online Post-training,可扩展在线后训练)。

简单说,在传统的人形机器人生命周期里:开发 → 训练 → 部署 → 结束。
在 SOP 里:开发 → 预训练 → 部署 → 真正的学习开始。
SOP 核心思想很简单:
机器人可以带着并不完美、只有 60 分的模型上线。部署不再意味着开发的结束,相对于以前的「数据冻结」,现在则是大规模数据获取的开始。
真实世界本身,成为了最大的训练场。
我们根据目前的技术资料,整理了下。
SOP 的具体运行逻辑构建了一个「现实世界 → 云端学习 → 即时回流」的闭环:

【1】并行执行
多台机器人在真实世界中执行任务。
【2】数据回传
所有的执行轨迹(不仅是成功的,更重要的是失败的、卡顿的、被人工接管纠正的)被实时上传到云端。
【3】在线更新
云端的算力利用这些「真实且实时的数据」对模型进行微调或强化学习。

【4】参数同步
新学到的能力参数,在分钟级甚至秒级同步回所有的机器人终端。
这个过程中,有几个点很关键,就是:可扩展、并行。
下面这张图,是我找到的智元机器人 SOP 的流程示意图:

简单来说,这就是一个机器人团队的工作方式。
每个机器人都有自己要做的任务,有的是「补货」或者「挑选物品」任务。
商超任务里的「补货」或者「挑选物品」,其实考察的就是模型的语义泛化能力。你得能分辨数百种商品,还有不同类型的货架,关键是要能听懂人类的指令,从一堆堆的东西中找到对的那个,完成任务。
而有的任务,比如叠衣服或者组装东西,这些任务需要更精细的技能和长时间的操作。

在「叠衣服扰动」场景下,SOP 的优势会更明显一点:

而且通过 SOP,人形机器人叠衣服和叠纸盒任务可以连续执行 36 小时。
叠衣服任务:

叠纸盒任务:

这些机器人不仅仅是单独工作的,它们是在一个分布式的团队里,每个机器人都共享一套相同的策略。
它们在真实的环境中执行任务,然后把所有的经验数据都传回到云服务器,服务器会分析这些数据,帮机器人优化操作方法。
然后,机器人就会根据这些新学到的东西,变得越来越聪明,能处理更多不同的任务。
如果只有一台机器人在线学习,它往往会遇到一个问题,就是只专注于这一个问题的学习、解决。
这个过程很慢,而且它很容易陷入「局部最优解」。
因为它见过的场景太少了。它可能会错误地以为「只要是红色的东西都不能碰」,因为昨天碰了一个红色的易碎的杯子。
但当你有 100 台、1000 台机器人同时在线时,情况完全不同了。
首先,云端模型能够在短时间内,看到各种机器人在各种场景下遇到的状态和问题。
其次,机器人 A 犯的错,被云端纠正后,机器人 B 立刻就学会了避免这个错误。达到同样的成功率,单机可能需要运行 1000 小时,而 100 机器并行的集群可能只需要 10 小时。

规模,在这里不再是负担,而是能力本身。

总的来看,SOP 的价值点之一就是让「机器人」对「数据」的定义,发生了变化。
在过去,只有经过清洗的、专门去采集的数据才叫「训练数据」。真实环境中的数据往往被视为噪声,被视为干扰项。
而在 SOP 架构下,现实世界经验,成为了可资产化的训练资源。
这与 LLM 的发展其实很像,在 GPT 3 之后,LLM 的进步很大程度上归功于 RLHF(人类反馈强化学习)。模型不仅仅是在看书(预训练),更是在看人类如何评价它的回答(反馈)。
虽然现在这个节点下,「预训练已死」这个观点,已经被 Gemini 3 系列证伪了,OpenAI 也开始公开承认预训练依然很重要,但强化学习的重要性依然是是 TOP Priority 之一。

从某个角度看,SOP 可能就是机器人领域的 RLHF,而且是基于物理世界反馈的 RLHF。
而且,一件很有意思的事情也出现了:负反馈,也不是坏事了。
当技术成熟后,每一次机器人伸手抓空,都可能会是一次负反馈,每一次机器人成功完成任务但耗时过长,都是一次优化的好机会。
外界的「噪音」,现在将可能会是人形机器人的「强化学习动力」。
所以,现在再回头看看 SOP,就会很有意思。
SOP 将会在一定程度上降低了人形机器人进入真实环境(家庭、办公室、商场)的门槛,因为它 在「具体的机器人」的「分发基础上」,支撑了「不断进化」的能力。
或许,真正的人形机器人时代,并不是从「站起来」的那一刻开始的。
相反,是从它们学会在现实世界中持续学习的那一天。
文章来自于“十字路口Crossing”,作者 “镜山”。