阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人
7034点击    2026-04-23 14:06

阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人


当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。


4 月 21 日,自变量机器人举行「一个家庭成员的诞生」发布会,在会上,创始人&CEO 王潜确认,自变量近期已完成 B 轮融资,投资方为小米战投。


这是自变量机器人在 2026 年对外披露的第三轮融资,也是这家公司自 2023 年 10 月成立以来完成的第十一轮融资。进入 2026 年后,具身智能赛道融资持续升温,多家头部公司估值已突破百亿元,自变量机器人正是其中之一。


但自变量机器人的特别之处,不只在于融资节奏快、融资规模大,更在于它所吸引来的资金,呈现出非常鲜明的市场化特征。到目前为止,它已经成为业内唯一一家同时获得美团、阿里、字节和小米四家互联网巨头战略投资的具身智能公司。这个投资人名单之所以值得注意,不只是因为巨头齐聚,更因为这些公司本身都在布局机器人业务;而字节和小米战投,过去也并不常出现在这类「通用机器人大脑」公司的投资名单中。


发布会上,除了 B 轮融资消息确认,自变量机器人也发布了新一代自研具身智能基础模型 WALL-B,并宣布一个月后,搭载这一新模型的机器人将开启家庭场景服务。


这也是当前国内具身智能头部公司中,第一家明确把下一阶段重点场景放在家庭的公司。相比之下,行业内大多数公司的叙事仍然集中在商业或工业场景,本质上是在优先回答 ROI 和落地效率的问题。


而自变量机器人的思路明显不同。家庭场景对它而言,并不意味着要对外宣称「家庭机器人已经可用」,而更像是一种接近 1X 的路径:先把机器人真正放进家庭,再让它在家庭这个高度开放、长尾且复杂的环境里持续成长。


自变量也没有回避家庭场景当前仍可能需要一定程度遥操作的现实。但它想强调的并不是「靠遥操作把机器人放进家庭,像数据采集一样收数据」,而是基础模型在经过大规模预训练后,已经具备了零样本泛化能力,可以先在真实家庭环境中直接执行一部分任务。机器人做得好的部分直接完成,做不好的部分再通过人机协作回流数据,并在后续训练中被模型吸收。


这种思路和不少同行并不相同:在许多公司还在围绕场景闭环、交付效率和商业回报做权衡时,自变量更像是在优先押注一条通向通用智能的路线——自变量一直强调更重视真实数据和数据质量。


某种程度上,这或许正是自变量最鲜明的标签:当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。这种强烈的「基础模型导向」和「AGI 导向」,或许也是它持续获得大额融资的重要原因之一。


01

不只是做世界模型,

自变量定义了一种新的「机器人大脑」


自变量此次发布会上,最有趣的重点之一,是发布了一个新的模型架构:世界统一模型(World Unified Model, WUM)。


行业公认,开年以来对于大脑的关注,主要在世界模型相关的技术进展。


自变量此次的模型架构更新,也和世界模型有关——但又和普遍认知的世界模型不同。


按自变量的说法,行业现在公认的两条具身道路,无论是从 VLM 延展到 VLA,还是从视频生成模型、世界模型继续往动作上接,本质上都还是在继承那些原本不是为具身任务训练出来的模型。


前者更强于语义理解,却未必足够敏感于机器人真正要面对的空间变化、环境扰动和动作细节;后者虽然强调连续预测,也未必真正抓住了机器人在物理世界中最关心的因果关系。


自变量 CEO 王潜在采访中直言,这两种路线都很「糟糕」。


因此,自变量这次提出的,不是一个传统意义上的世界模型,也不是一个 VLA,而是一套它称为 世界统一模型 的新架构。按照它的描述,这套架构试图把视觉、语言、动作、触觉乃至物理预测等能力,尽量放进同一个网络中,从头开始联合训练,而不是先继承一个为别的任务训练出来的模型,再去做机器人适配。


阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人


这条路线的好处是,一旦成立,机器人面对物理世界时最核心的几种能力——感知、理解、预测和动作——就不需要再在不同模块之间来回转译,模型也更能直接围绕「如何在真实世界中行动」这个目标去学习,而不是先学会别的任务,再被迁移到机器人身上。


自变量把这套模型架构的意义,类比为机器人领域的「Apple Silicon 统一内存架构时刻」。


在它看来,今天主流的 VLA 路线,仍然有点像苹果 M1 之前的传统电脑架构:视觉、语言、动作等模块彼此分离,信息需要在不同模块之间反复传递和转译,每传一次就损失一次。而 WALL-B 所采用的世界统一模型,更像是一次「统一架构」式的重写——把原本分散的感知、理解、预测和动作能力尽量放进同一个系统里,从底层开始联合训练,减少中间搬运带来的损耗。


阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人


自变量之所以现在提出这条路线,一个重要前提是,它认为具身智能的数据积累已经到了一个新的阶段。按它的说法,当数据规模突破某个门槛之后,行业里其实已经开始陆续看到零样本泛化的迹象,只是因为具身场景太多、问题太复杂,不同公司观察到的程度不一样。


在这个判断之上,模型架构本身就变得格外重要。新模型强调「原生多模态」——不是在已有模型上继续打补丁,而是把视觉、语言、动作、触觉等不同模态尽量平等地放进同一个系统里,从头开始训练一个真正面向物理世界的模型。


这也是 WALL-B 这次真正有看点的地方:它想回答「如果从一开始就按具身智能和物理世界的要求来做,一个基础模型应该长成什么样」


02

进家庭,不是为了落地,

而是为了逼模型长出泛化能力


如果说,世界统一模型 WALL-B 代表的是自变量对「机器人大脑应该怎么做」的回答;那么把机器人送进家庭,则对应着它对「这个脑应该在哪里继续长出来」的回答。


具身智能赛道里,今天并不缺少「做大脑」的公司。但自变量一个非常鲜明的特点是,它对真实世界数据的重视程度明显更高。尤其是在行业普遍讨论仿真、合成数据,以及如何用更低成本方式快速扩充数据规模的时候,自变量依然把真实数据视作机器人模型演进中最核心的资产之一。


王潜对这件事的判断有一个明确且非共识的看法。


在他看来,互联网视频对于机器人模型而言,那些最容易拿来用的「低垂果实」基本已经被摘得差不多了,行业下一步必须更多转向自己生产数据。仿真当然有价值,但它的上限和约束同样明显:一方面,很多真实世界里的关键参数并不可得,另一方面,像柔性物体这类场景本身就很难被高质量模拟。更有意思的是,自变量还有一个相对非共识的判断——仿真数据未必比真实数据便宜,在某些情况下,前者甚至可能更贵。


这也决定了自变量对「真实数据」这件事的理解,比简单的「多造几台机器人采数据」更复杂一些。


在它看来,真实数据并不等于都必须来自真机本体,无本体的数据采集同样是关键方向;但与此同时,它也没有像行业里不少公司那样,把数据重点迅速转向这一更轻量的路线。


比如今年早些时候,自变量选择与 58 同城合作,在真实场景中用真机收集数据——在大家都在讨论如何绕开真机、用更低成本方式做更多数据的时候,这种选择反而显得有些「逆势」。


阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人


而这种数据观,也直接解释了它为什么会在这个时间点把下一步放到家庭。


在自变量看来,工业和家庭其实对应着两种几乎相反的技术目标。工业场景更封闭、更固定,对速度、准确率和稳定性的要求极高;家庭场景则恰恰相反,它是一个极度开放、充满长尾变化、对泛化能力要求近乎极致的环境。前者更适合做后训练、做针对性强化和效率优化,后者更适合检验、拉升和继续塑造一个基础模型的预训练能力。


换句话说,如果一家公司想优先回答的是,机器人怎样在一个确定场景里更快、更准、更稳定地交付价值,那么工业会是更自然的选择;但如果它更关心的是,机器人能不能在一个复杂开放的真实世界里,面对从未见过的空间、物体和任务仍然工作下去,那么家庭就是一个更苛刻、也更有价值的环境。


但这并不意味着,自变量想把家庭变成一个新的数据采集场,让机器人在不同的家里,仍然训练一样的叠衣服。自变量承认,在今天的阶段,人机协作乃至一定程度的遥操作仍然存在。


同时它强调,能够在这个阶段进家庭,正是因为前面所述的基础模型在经过新的架构改造后,已经具备了一定的零样本泛化能力,机器人进入家庭之后,原则上不该先被切成一个个预定义能力包,而是要直接面对一个开放任务集合。除了物理上确实做不到的事情,它希望机器人能够去尝试任何任务。


阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人


也就是说,家庭里的价值不只是「采到了多少数据」,而是模型能否在真实执行中持续暴露在新的任务上、同时获取多种环境和多种类型的任务数据,并在下一轮把这些困难真正学进去。


这才是家庭场景对于现阶段的机器人最有意义的点。


03

被四大巨头同时下注,

自变量真正被看中的是什么?


如果只看表面,自变量成为阿里、字节、美团和小米四家互联网巨头同时下注的具身智能公司,似乎很容易被解释成「赶上了风口」。但如果把它过去一段时间的动作连起来看,就会发现,它被重仓的原因显然不只是赛道热度。


更核心的原因在于,在当前具身智能竞争中,自变量同时占住了三项最关键、也最难同时成立的位置:基础模型、真实世界数据和机器人本体。


一方面,自变量持续推进 Great Wall 系列基础模型,从 WALL-A 到最新发布的 WALL-B,试图在模型架构、数据效率和泛化能力上做出实质性突破;另一方面,它又高度重视真实世界数据,明确判断互联网视频对机器人模型而言最容易利用的「低垂果实」已基本摘完,行业接下来必须更多依靠自己生产数据,并坚持通过真机和复杂场景去形成数据闭环。


与此同时,公司并不缺少本体能力,在自研通用轮式双臂机器人、人形机器人、高自由度灵巧手和机械臂等整套硬件体系。换句话说,它并不是只占住了具身智能链条里的某一个环节,而是在试图把模型、数据和身体一起打通。


阿里、美团、字节、小米罕见「会师」,四大厂为何共同押注自变量机器人


如果说 2025 年行业的热度,更多还围绕本体能力、运动控制、硬件形态和场景落地展开,那么到了 2026 年,资本开始越来越明确地把筹码压向「身体之外」的另一部分能力——机器人「大脑」的 scaling 潜力。也正是在这个意义上,自变量的投资人名单格外值得注意。


阿里、字节、美团和小米并不是纯财务投资者,更不是对模型没有判断能力的普通产业资本。恰恰相反,这几家公司本身都在持续投入 AI,也都在不同程度上推进机器人、具身智能或相关硬件体系的探索。


也就是说,它们投资自变量,并不是因为自己看不懂这条路;反而正因为它们懂模型、懂系统,也懂这个赛道真正难在哪,所以它们更清楚,什么样的团队只是在追风口,什么样的团队是在搭下一阶段竞争真正需要的能力。


从这个角度看,自变量的特殊性也就更清楚了。和一些国内具身智能头部公司相比,它似乎并不是现阶段最着急铺开商业化场景、尽快把账算过来的那一类。无论是这次发布 WALL-B、提出统一世界模型,还是它强调真实数据、选择让机器人进入家庭、坚持在开放世界里逼模型长能力,这些动作背后其实都对应着同一个方向:不是优先去找一个最好交付、最好算 ROI 的场景,而是优先去搭一个更接近通用智能的系统。


融资之后,公司的重心仍然是继续把资金主要投向物理世界基础模型研发、包括家庭在内的复杂场景拓展与数据收集,以及 AI 基础设施和机器人研发体系的持续升级。从公司成立到现在,自变量最优先加码的,仍然是模型、数据和底层能力体系这些最慢、最重、也最不容易在短期内兑现收入的部分。


这也是具身智能赛道当下一个很有意思的现象:自变量吸引来的,是业内最市场化的一批资金,但这些资金最终支持它继续加码的,却不是最短路径的商业化验证,而是物理世界基础模型、复杂场景和数据体系这类更长周期的建设。


从这个意义上说,四大互联网巨头同时下注自变量,押的已经不只是它今天能做出什么样的机器人,也不只是它眼下能落地多少场景,而是它是否有机会沿着一条更长期的路线,率先把基础模型、真实世界数据和机器人本体真正打通,在下一阶段竞争中占住更核心的位置。


*头图来源:自变量机器人


文章来自于"极客公园",作者 "Li Yuan"。

AITNT-国内领先的一站式人工智能新闻资讯网站