阿里、美团、字节、小米罕见「会师」，四大厂为何共同押注自变量机器人

7796点击 2026-04-23 14:06

当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时，自变量更想寻找哪条路径能够通往 AGI。

4 月 21 日，自变量机器人举行「一个家庭成员的诞生」发布会，在会上，创始人&CEO 王潜确认，自变量近期已完成 B 轮融资，投资方为小米战投。

这是自变量机器人在 2026 年对外披露的第三轮融资，也是这家公司自 2023 年 10 月成立以来完成的第十一轮融资。进入 2026 年后，具身智能赛道融资持续升温，多家头部公司估值已突破百亿元，自变量机器人正是其中之一。

但自变量机器人的特别之处，不只在于融资节奏快、融资规模大，更在于它所吸引来的资金，呈现出非常鲜明的市场化特征。到目前为止，它已经成为业内唯一一家同时获得美团、阿里、字节和小米四家互联网巨头战略投资的具身智能公司。这个投资人名单之所以值得注意，不只是因为巨头齐聚，更因为这些公司本身都在布局机器人业务；而字节和小米战投，过去也并不常出现在这类「通用机器人大脑」公司的投资名单中。

发布会上，除了 B 轮融资消息确认，自变量机器人也发布了新一代自研具身智能基础模型 WALL-B，并宣布一个月后，搭载这一新模型的机器人将开启家庭场景服务。

这也是当前国内具身智能头部公司中，第一家明确把下一阶段重点场景放在家庭的公司。相比之下，行业内大多数公司的叙事仍然集中在商业或工业场景，本质上是在优先回答 ROI 和落地效率的问题。

而自变量机器人的思路明显不同。家庭场景对它而言，并不意味着要对外宣称「家庭机器人已经可用」，而更像是一种接近 1X 的路径：先把机器人真正放进家庭，再让它在家庭这个高度开放、长尾且复杂的环境里持续成长。

自变量也没有回避家庭场景当前仍可能需要一定程度遥操作的现实。但它想强调的并不是「靠遥操作把机器人放进家庭，像数据采集一样收数据」，而是基础模型在经过大规模预训练后，已经具备了零样本泛化能力，可以先在真实家庭环境中直接执行一部分任务。机器人做得好的部分直接完成，做不好的部分再通过人机协作回流数据，并在后续训练中被模型吸收。

这种思路和不少同行并不相同：在许多公司还在围绕场景闭环、交付效率和商业回报做权衡时，自变量更像是在优先押注一条通向通用智能的路线——自变量一直强调更重视真实数据和数据质量。

某种程度上，这或许正是自变量最鲜明的标签：当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时，自变量更想寻找哪条路径能够通往 AGI。这种强烈的「基础模型导向」和「AGI 导向」，或许也是它持续获得大额融资的重要原因之一。

01 不只是做世界模型，

自变量定义了一种新的「机器人大脑」

自变量此次发布会上，最有趣的重点之一，是发布了一个新的模型架构：世界统一模型（World Unified Model, WUM)。

行业公认，开年以来对于大脑的关注，主要在世界模型相关的技术进展。

自变量此次的模型架构更新，也和世界模型有关——但又和普遍认知的世界模型不同。

按自变量的说法，行业现在公认的两条具身道路，无论是从 VLM 延展到 VLA，还是从视频生成模型、世界模型继续往动作上接，本质上都还是在继承那些原本不是为具身任务训练出来的模型。

前者更强于语义理解，却未必足够敏感于机器人真正要面对的空间变化、环境扰动和动作细节；后者虽然强调连续预测，也未必真正抓住了机器人在物理世界中最关心的因果关系。

自变量 CEO 王潜在采访中直言，这两种路线都很「糟糕」。

因此，自变量这次提出的，不是一个传统意义上的世界模型，也不是一个 VLA，而是一套它称为 世界统一模型 的新架构。按照它的描述，这套架构试图把视觉、语言、动作、触觉乃至物理预测等能力，尽量放进同一个网络中，从头开始联合训练，而不是先继承一个为别的任务训练出来的模型，再去做机器人适配。

阿里、美团、字节、小米罕见「会师」，四大厂为何共同押注自变量机器人

这条路线的好处是，一旦成立，机器人面对物理世界时最核心的几种能力——感知、理解、预测和动作——就不需要再在不同模块之间来回转译，模型也更能直接围绕「如何在真实世界中行动」这个目标去学习，而不是先学会别的任务，再被迁移到机器人身上。

自变量把这套模型架构的意义，类比为机器人领域的「Apple Silicon 统一内存架构时刻」。

在它看来，今天主流的 VLA 路线，仍然有点像苹果 M1 之前的传统电脑架构：视觉、语言、动作等模块彼此分离，信息需要在不同模块之间反复传递和转译，每传一次就损失一次。而 WALL-B 所采用的世界统一模型，更像是一次「统一架构」式的重写——把原本分散的感知、理解、预测和动作能力尽量放进同一个系统里，从底层开始联合训练，减少中间搬运带来的损耗。

阿里、美团、字节、小米罕见「会师」，四大厂为何共同押注自变量机器人

自变量之所以现在提出这条路线，一个重要前提是，它认为具身智能的数据积累已经到了一个新的阶段。按它的说法，当数据规模突破某个门槛之后，行业里其实已经开始陆续看到零样本泛化的迹象，只是因为具身场景太多、问题太复杂，不同公司观察到的程度不一样。

在这个判断之上，模型架构本身就变得格外重要。新模型强调「原生多模态」——不是在已有模型上继续打补丁，而是把视觉、语言、动作、触觉等不同模态尽量平等地放进同一个系统里，从头开始训练一个真正面向物理世界的模型。

这也是 WALL-B 这次真正有看点的地方：它想回答「如果从一开始就按具身智能和物理世界的要求来做，一个基础模型应该长成什么样」。

02 进家庭，不是为了落地，

而是为了逼模型长出泛化能力

如果说，世界统一模型 WALL-B 代表的是自变量对「机器人大脑应该怎么做」的回答；那么把机器人送进家庭，则对应着它对「这个脑应该在哪里继续长出来」的回答。

具身智能赛道里，今天并不缺少「做大脑」的公司。但自变量一个非常鲜明的特点是，它对真实世界数据的重视程度明显更高。尤其是在行业普遍讨论仿真、合成数据，以及如何用更低成本方式快速扩充数据规模的时候，自变量依然把真实数据视作机器人模型演进中最核心的资产之一。

王潜对这件事的判断有一个明确且非共识的看法。

在他看来，互联网视频对于机器人模型而言，那些最容易拿来用的「低垂果实」基本已经被摘得差不多了，行业下一步必须更多转向自己生产数据。仿真当然有价值，但它的上限和约束同样明显：一方面，很多真实世界里的关键参数并不可得，另一方面，像柔性物体这类场景本身就很难被高质量模拟。更有意思的是，自变量还有一个相对非共识的判断——仿真数据未必比真实数据便宜，在某些情况下，前者甚至可能更贵。

这也决定了自变量对「真实数据」这件事的理解，比简单的「多造几台机器人采数据」更复杂一些。

在它看来，真实数据并不等于都必须来自真机本体，无本体的数据采集同样是关键方向；但与此同时，它也没有像行业里不少公司那样，把数据重点迅速转向这一更轻量的路线。

比如今年早些时候，自变量选择与 58 同城合作，在真实场景中用真机收集数据——在大家都在讨论如何绕开真机、用更低成本方式做更多数据的时候，这种选择反而显得有些「逆势」。

阿里、美团、字节、小米罕见「会师」，四大厂为何共同押注自变量机器人

而这种数据观，也直接解释了它为什么会在这个时间点把下一步放到家庭。

在自变量看来，工业和家庭其实对应着两种几乎相反的技术目标。工业场景更封闭、更固定，对速度、准确率和稳定性的要求极高；家庭场景则恰恰相反，它是一个极度开放、充满长尾变化、对泛化能力要求近乎极致的环境。前者更适合做后训练、做针对性强化和效率优化，后者更适合检验、拉升和继续塑造一个基础模型的预训练能力。

换句话说，如果一家公司想优先回答的是，机器人怎样在一个确定场景里更快、更准、更稳定地交付价值，那么工业会是更自然的选择；但如果它更关心的是，机器人能不能在一个复杂开放的真实世界里，面对从未见过的空间、物体和任务仍然工作下去，那么家庭就是一个更苛刻、也更有价值的环境。

但这并不意味着，自变量想把家庭变成一个新的数据采集场，让机器人在不同的家里，仍然训练一样的叠衣服。自变量承认，在今天的阶段，人机协作乃至一定程度的遥操作仍然存在。

同时它强调，能够在这个阶段进家庭，正是因为前面所述的基础模型在经过新的架构改造后，已经具备了一定的零样本泛化能力，机器人进入家庭之后，原则上不该先被切成一个个预定义能力包，而是要直接面对一个开放任务集合。除了物理上确实做不到的事情，它希望机器人能够去尝试任何任务。

阿里、美团、字节、小米罕见「会师」，四大厂为何共同押注自变量机器人

也就是说，家庭里的价值不只是「采到了多少数据」，而是模型能否在真实执行中持续暴露在新的任务上、同时获取多种环境和多种类型的任务数据，并在下一轮把这些困难真正学进去。

这才是家庭场景对于现阶段的机器人最有意义的点。

03 被四大巨头同时下注，

自变量真正被看中的是什么？

如果只看表面，自变量成为阿里、字节、美团和小米四家互联网巨头同时下注的具身智能公司，似乎很容易被解释成「赶上了风口」。但如果把它过去一段时间的动作连起来看，就会发现，它被重仓的原因显然不只是赛道热度。

更核心的原因在于，在当前具身智能竞争中，自变量同时占住了三项最关键、也最难同时成立的位置：基础模型、真实世界数据和机器人本体。

一方面，自变量持续推进 Great Wall 系列基础模型，从 WALL-A 到最新发布的 WALL-B，试图在模型架构、数据效率和泛化能力上做出实质性突破；另一方面，它又高度重视真实世界数据，明确判断互联网视频对机器人模型而言最容易利用的「低垂果实」已基本摘完，行业接下来必须更多依靠自己生产数据，并坚持通过真机和复杂场景去形成数据闭环。

与此同时，公司并不缺少本体能力，在自研通用轮式双臂机器人、人形机器人、高自由度灵巧手和机械臂等整套硬件体系。换句话说，它并不是只占住了具身智能链条里的某一个环节，而是在试图把模型、数据和身体一起打通。

阿里、美团、字节、小米罕见「会师」，四大厂为何共同押注自变量机器人

如果说 2025 年行业的热度，更多还围绕本体能力、运动控制、硬件形态和场景落地展开，那么到了 2026 年，资本开始越来越明确地把筹码压向「身体之外」的另一部分能力——机器人「大脑」的 scaling 潜力。也正是在这个意义上，自变量的投资人名单格外值得注意。

阿里、字节、美团和小米并不是纯财务投资者，更不是对模型没有判断能力的普通产业资本。恰恰相反，这几家公司本身都在持续投入 AI，也都在不同程度上推进机器人、具身智能或相关硬件体系的探索。

也就是说，它们投资自变量，并不是因为自己看不懂这条路；反而正因为它们懂模型、懂系统，也懂这个赛道真正难在哪，所以它们更清楚，什么样的团队只是在追风口，什么样的团队是在搭下一阶段竞争真正需要的能力。

从这个角度看，自变量的特殊性也就更清楚了。和一些国内具身智能头部公司相比，它似乎并不是现阶段最着急铺开商业化场景、尽快把账算过来的那一类。无论是这次发布 WALL-B、提出统一世界模型，还是它强调真实数据、选择让机器人进入家庭、坚持在开放世界里逼模型长能力，这些动作背后其实都对应着同一个方向：不是优先去找一个最好交付、最好算 ROI 的场景，而是优先去搭一个更接近通用智能的系统。

融资之后，公司的重心仍然是继续把资金主要投向物理世界基础模型研发、包括家庭在内的复杂场景拓展与数据收集，以及 AI 基础设施和机器人研发体系的持续升级。从公司成立到现在，自变量最优先加码的，仍然是模型、数据和底层能力体系这些最慢、最重、也最不容易在短期内兑现收入的部分。

这也是具身智能赛道当下一个很有意思的现象：自变量吸引来的，是业内最市场化的一批资金，但这些资金最终支持它继续加码的，却不是最短路径的商业化验证，而是物理世界基础模型、复杂场景和数据体系这类更长周期的建设。

从这个意义上说，四大互联网巨头同时下注自变量，押的已经不只是它今天能做出什么样的机器人，也不只是它眼下能落地多少场景，而是它是否有机会沿着一条更长期的路线，率先把基础模型、真实世界数据和机器人本体真正打通，在下一阶段竞争中占住更核心的位置。

*头图来源：自变量机器人

文章来自于"极客公园"，作者 "Li Yuan"。

关键词: AI新闻 , 具身智能 , 自变量机器 , AI机器人