这几天,世界模型赛道格外热闹。
李飞飞空间智能独角兽 World Labs 高调推出「Spark 2.0」,阿里随即上线世界模型「快乐生蚝」。
几乎同一时间,Physical Intelligence 也发布新模型 π 0.7,并强调其对未见任务的初步组合式泛化能力与跨机器人平台迁移特性。
这一系列动作本身释放了一个信号,行业竞争的焦点,已经从谁会做单点动作,转向谁更接近将「预测世界」和「驱动行动」统一在同一个模型里。
在这个节点上,一款名为 MotuBrain 的神秘世界模型,悄无声息地登上两个国际 benchmark 的榜首,没有任何公司署名。
如果只是单榜第一,这件事或许并不稀奇。
但问题在于,它同时拿下的,是两个几乎代表行业「两个极点」的榜单:一个是衡量世界模型「是否真正理解和预测现实世界」的 WorldArena;另一个则是衡量机器人任务执行能力与泛化能力的 RoboTwin2.0。一个偏世界预测,一个偏任务执行,加在一起,恰好对应了行业当下最想攻克的那个统一命题。
在 WorldArena 上,MotuBrain 以 63.77 的总体 EWM Score 位居第一,从结果来看,其表现超越了高德的ABot、极佳GigaWorld-1等模型,并在 Motion Quality、Flow Score、Motion Smoothness 等多个关键运动维度上全面领跑。

图片来源:https://huggingface.co/spaces/WorldArena/WorldArena
而在 RoboTwin2.0 中,MotuBrain 在 Clean 和 Randomized 两个场景下分别达到 95.8 和 96.1,同样排名第一,是榜单上唯一一个在随机环境下平均分超过 95 的模型,在大多数具体任务中也都取得了 100 或接近 100 的成绩。相较于高德 ABot、蚂蚁灵波 LingBot、JEPA-VLA、pi0.5等模型,MotuBrain 在 RoboTwin 基准测试中具有统治级的表现。


正是这种「双料第一」,才让我们注意到这款来历不明的模型。
简单搜索了一下,目前网上还未找到任何有关 MotuBrain 的信息,不过我们发现了这个本月刚刚注册的 X 账号。

这让我们想起前段时间被阿里认领的「欢乐马」(后续也开了 X 账号)。
这个神秘世界模型,不会也是来自国内哪家大厂吧?
为什么 MotuBrain 的成绩值得关注?
WorldArena 和 RoboTwin 并不是两个同类型的测试,它们测量的是两种不同的能力。
WorldArena 考察的是 world model 维度,包括模型能否理解运动规律,能否对时间序列中的物理变化做出准确的推演和预测,以及是否具备对环境状态变化的认知能力。这是预测世界的能力。
RoboTwin 则偏向 action model 或 policy model 的维度,比方说模型能否在多任务、多环境下稳定执行动作,能否泛化到没见过的场景,是否具备持续完成复杂操作的能力,而这些是在世界中行动的能力。
不妨做一个类比。人类司机之所以能在复杂路况下安全驾驶,靠的不只是肌肉记忆,更是对下一秒会发生什么的持续预判,比如前车会不会急刹?行人会不会突然横穿?这种预测与行动的同步进行,是人类智能的底层逻辑。
现有的大多数机器人系统,恰恰缺的就是这一层。它们要么擅长看懂世界却不知道该怎么动,要么能执行固定动作却对环境变化毫无预判。两张皮的结果,是机器人一旦离开训练场景就容易失控。
过去几年,这两个方向各自都有人在做,但往往是割裂的。做视频生成和世界模型的团队,关注的是模型能否真实模拟物理世界;做机器人策略和 VLA 的团队,关注的是如何让模型在具体任务上执行可靠。真正尝试把两者统一起来的工作本就不多,成果稳定的就更少。
MotuBrain 能够在两类 benchmark 上同时拿下第一,至少在 benchmark 层面上验证了一件事,把预测世界和驱动行动统一在同一个模型里,这条路是走得通的。
双料第一,它究竟赢在哪里?
在 WorldArena 榜单上,MotuBrain 更值得关注的是它在这些维度上的领先。
这三个维度,都和运动直接相关。对于一个未来要服务机器人的世界模型来说,这正是最关键的能力。
而在更偏任务执行的 RoboTwin 上,这种优势被进一步放大。面对 50 个任务、两种不同环境设置,MotuBrain 的平均得分达到 96.0,显著高于第二名的 92.3,领先幅度几乎等同于第二名到第五名之间的差距。
更关键的是稳定性。一半任务成功率达到 100%,九成任务超过 90%。这不仅意味着能做对,更意味着在多任务和随机扰动环境下依然能够稳定复现结果。
这些成绩放在一起看,指向的是一种更接近通用机器人大脑的特征,既能保持动作层面的连续与一致,又具备跨任务的泛化能力。
背后是谁,走的是条什么路子?
目前关于 MotuBrain 的公开信息寥寥无几,但从这次双榜的成绩结构来看,它背后大概率不是传统的视频模型,也不是单纯的 VLA 或 policy model。
过去一年,行业内围绕 world model 和 action model 的探索各自形成了几条有代表性的路线。
有的强调统一世界模型,通过视觉、语言、视频与动作的联合建模,融合视频模型、VLA、世界模型等等路线,从而实现对真实环境的感知、规划、预测、执行和跨任务泛化,典型代表是去年 12 月发布的 Motus。
有的更偏向于「先想象、再行动」的路径,譬如今年一月底发布的 Lingbot-VA 就是先用视频模型进行未来视频预测,再反向指导机器人动作决策,两者融合到一个模型里。
还有一些走的是「同步推演未来状态 + 生成动作」,边推演边行动的 World Action Model,比如英伟达二月初发布的 DreamZero。
从 MotuBrain 这次的表现来看,它可能走了一条偏 World Action Model 的路线,兼具 world model 对环境和未来状态的推演能力,以及 action model 在真实任务中的执行能力。
这也就能解释它为何能同时在「世界建模」和「动作执行」两类 benchmark 上问鼎。
结语
如果把一台机器人拆开来看,可以理解为「手脚」是硬件,而「大脑」是软件。
过去几年,机器人硬件的迭代速度有目共睹,运动控制越来越精准,传感器越来越丰富,成本越来越低。但真正制约机器人大规模落地的,是那颗指挥任务的大脑。
现在的机器人,本质上还是「为特定任务训练的专用系统」。换一个场景、换一个物体、换一条指令,就可能完全失效。这很大程度上归因为智能问题。
具身智能的目标,是构建一个统一模型。既能理解物理世界、预测状态变化,又能据此生成可靠动作,从而适配任意任务与场景。
这个逻辑,资本已经用真金白银给出了判断。
观察最近这几笔大额融资不难发现,资金正密集涌向那些打造机器人「大脑」的公司。表面投的是机器人,实际上抢占的,可能是下一代「机器人操作系统」或「通用物理大脑」的入口。
如此看来,以 Motubrain 为代表的 world+action 统一架构,恰好站在了这场卡位战的核心位置。
至于 Motubrain 背后究竟是哪支团队,接下来又会带来什么,这个问号大概不会悬太久。
文章来自于微信公众号 "机器之心",作者 "机器之心"