具身智能的胜负手,可能并不在机器人本身。
这种认知差,正在被最敏锐的资本迅速兑现为筹码。
近日,灵初智能宣布完成总额约20亿元的天使轮及Pre-A轮融资。
这笔20亿元的资金,将加速灵初智能在物流场景的规模化落地与数据采集体系建设。
值得注意的是,这是灵初智能首次系统披露公司的融资进展。
过去很长一段时间,这家公司几乎没有在资本层面发声,而是把大部分精力放在技术路线与数据体系的打磨上。

而之所以能吸引国家级资本与地方国资的大规模重仓,也与团队极其互补的底色分不开:
创始人兼CEO王启斌在手机、智能音箱及机器人领域拥有20年产品操盘经验,曾担任黑莓、Sonos及云迹科技高管;
联合创始人陈源培是00后,在北大人工智能研究院读研时师从强化学习(RL)代表人物杨耀东,在斯坦福曾与李飞飞有过深入交流,曾拒绝了华为“天才少年”的高薪offer。
在具身智能公司纷纷卷Demo、卷参数的当下,灵初智能的突围逻辑清晰且冷峻:放弃昂贵且低效的机器人遥操,All in人类原生数据。
长期以来,具身智能被三座数据大山死死压住:
仿真环境数采存在无法逾越的Sim-to-Real差距,尤其在处理布料等柔性物体时捉襟见肘;
机器人遥操数采则像是一场昂贵的人力外包,碎片化的试点导致成本居高不下,且无法穷尽物理世界的复杂分布;
而硬件本体与数据的深度耦合则成为了“房间里的大象”。数据与硬件强绑定,采集于哪种本体,便服务于哪家体系。这种封闭结构使数据难以跨平台流通,整个生态将逐渐演变为彼此割裂的孤岛。
风头正盛的UMI设备数采,在灵初智能看来更像是一个“美丽的陷阱”,同样存在结构性问题。
在灵初智能看来,这并非一场工具之争,而是一场数据范式之争。
UMI本质上是让人拿着机器人的器官去模拟机器,是一种“Robot-Centric”的逻辑。短期内可以降低门槛,长期却可能锁死上限。
如果数据从一开始就围绕机器人本体采集,那么模型的能力边界也会被提前锁定;而如果数据源头来自人类本身,那么模型学习的将是“任务本质”而非“机器结构”。两种路径,决定的是具身智能未来的天花板。

“UMI采集的是机器人夹爪的数据。它无法泛化,今天用UMI采的数据,根本无法直接用到五指灵巧手上。”陈源培指出,这种方案强行将人类拥有20多个自由度的五指灵巧手,降维成了一个只能“开合”的简易夹爪。
为了破解这一冷启动难题,灵初智能全栈自研并发布了全球首个具身原生人类数据采集方案——Psi-SynEngine。

其核心逻辑只有四个字:以人为本。
便携式外骨骼触觉手套可精准捕捉人手21个关节自由度及全手触觉信息,并不影响工人正常作业;系统同步记录头戴与手部视角的视觉、触觉、动作及语言数据,为预训练阶段的多模态对齐提供真值支撑。
更关键的是成本结构。
据王启斌透露,通过手套采集数据的综合成本,仅为真机遥操方案的10%。
真正的护城河,则来自跨本体迁移能力。
“机器人会迭代,夹爪会更换,但人手是不变的。”陈源培表示。

通过基于世界模型与强化学习的迁移算法,灵初能够将人类动作高质量映射到不同构型的灵巧手上,弥合Embodiment Gap。
当数据源头脱离硬件本体,模型的能力上限也会随之被重新打开。
数据基建解决的是“矿从哪来”,即“有没有数据”的问题,而真正拉开公司之间差距的,是“矿炼成什么”,也就是把这些数据转化为模型能力的效率。
灵初发布数采体系,外人看可能觉得就是个“卖铲子”的生意。但在创始团队的逻辑里,这只是飞轮的起点。

陈源培直言:
我们不会停留在数据供应商这个角色。
数据是用来训练具身大脑的燃料,而非终点。真正具备长期价值的,是由数据喂养出来的、可迁移的通用操作能力。
灵初智能不卖矿石,也不卖铲子,卖的是“会干活的脑”。
在灵初的逻辑里,单纯靠人力做数采没什么门槛,本质上赚的是劳动力的钱。而模型对数据的消化、泛化与迁移水平,才直接划定了这些数据价值的天花板。
因此,灵初走出了一条在行业中相对少见的路径:
这种“模型驱动数据”的闭环,让灵初在持续推进模型落地的过程中,能不断修正数据结构、标注体系与采集方式。
这就把原本死板堆积的“原材料”给带活了,让它们变成了一种紧贴模型目标、不断进化的结构化资产。

相比行业里还在兜售“大物流”“全场景泛化”这类宏大叙事,灵初表现得有些反直觉的克制。
王启斌透露,2025年下半年灵初内部曾有过一次关键掉头:停止资源投入纯展示型Demo,全面转向真实数据采集与细分场景交付。
为什么?
这种转变背后的逻辑其实很务实,因为模型进化需要养料,而最硬核的养料,只有在真实交付中碰撞出的“高密度问题”里才能淘出来。
灵初切入的口子极细,甚至有些“挑剔”,比如专门盯着“衣服供包”或“入箱检”这种高复杂度、强柔性的活儿。
以衣服供包为例,目前灵初已实现对上千件衣物的泛化抓取,节拍提升至800 UPH(即Unit Per Hour,指每小时产出数量),形成从场景部署、数据采集到模型优化的闭环。

这套方法在团队内部被沉淀为一种“能力飞轮”:每一个新场景的落地都在喂养模型,而变强了的模型,又成了他们敲开下一个复杂场景的敲门砖。
飞轮由此启动。
在具身智能这个“软硬耦合”的赛道上,全栈几乎是必选题。
算法离不开硬件,硬件又反过来塑造数据分布,两者缺了谁都跑不通系统闭环。
但灵初的“全栈”被赋予了某种分寸感,他们通过战略筛选,将精力高度克制地集中在核心链路,走的是一条精准布局、有的放矢的路子。
在王启斌看来,市场上能买到且够用的,灵初绝不碰;但凡是卡住核心能力的环节,必须紧紧攥在自己手里。
之所以费力气自研数据手套和灵巧手,是因为市面上现有的方案在规模化数采和底层电流环控制算法上,根本达不到高精度操作的要求。

假如将这些环节外包出去,无异于把数据质量和模型演进节奏的“命门”交给了别人。
而对于像轮式底盘这样已经高度成熟的赛道,他们则选择通过定制合作来解决,因为那已经不构成技术瓶颈,强行投入只会分散自身精力。
如此取舍背后,其实是在重新厘清灵初这家公司的能力边界:自研是为了守住核心能力,整合是为了调用通用资源。
这也让灵初的定位变得愈发清晰——他们本质上是一家通用灵巧操作能力的“大脑驱动公司”,核心算法与数据链路自控,硬件形态保持开放,能够根据不同场景灵活适配。

对于具身智能公司来说,眼下跟时间赛跑很重要。
因为真实场景的数据反馈是有复利效应的,那些进场早、碰到的复杂任务多的人,才能抢先一步触达那些决定胜负的长尾数据。
这种由规模和密度堆叠出来的领先优势,是后来者很难用资本直接抹平的。
所以灵初的方法论重心在于模型能力的沉淀。随着数据飞轮的启动,数据成本在降,模型能力在升,这种此消彼长会带他们步入一个更高阶的战场——
去解决那些更复杂、更广阔的应用场景。
值得注意的是,灵初智能此次披露的融资信息也释放出一个信号:具身智能正在进入资本与产业共振阶段。
据行业人士估算,在过去一年中,灵初估值已提升约6–7倍,正在向具身智能领域的独角兽迈进。

从国家级产业基金、地方国资平台,再到通信与光通信产业链龙头,这种资本结构背后,其实是产业界对“具身数据基础设施”的提前押注。
在这个赛道里,大家争夺的筹码早已超出了资金本身,时间才是最稀缺的通货。
随着数据飞轮转速加快,比拼的本质也从聚焦于谁账面上钱多,转变成了谁跑在了时间的最前面。
而这种领先优势极具排他性,一旦时间差形成,差距就会以一种极快的速度被放大,留给后来者的空间只会越来越窄。
文章来自于“量子位”,作者 “允中”。