星源智发布全球首个具身交互世界模型ω-EVA

9302点击 2026-06-17 20:39

今年的具身智能舞台，聚光灯毫无争议地打在了“世界模型 ”上。

从产业界到学术界，越来越多人开始聚焦世界模型，认识到要让机器人真正理解物理规律、空间关系和动态变化。

但世界模型的发展仍然处于早期阶段，视频生成派、隐空间表征派、数据增强派等都有各自待解的瓶颈，技术路线还尚未收敛。

对话星源智：世界模型四种策略，我们为什么选择了最落地的那条？

刚刚过去的2026智源大会上，由智源研究院孵化的星源智发布了全球首个具身交互世界模型ω-EVA，就这一前沿命题给出了全新的差异化解法。

传统世界模型的困境是"只预测，不参与"。它们训练时学习未来状态，推理时却与动作生成分割——视频生成得再精美，机器人该撞墙还是撞墙。

ω-EVA的核心创新在于打造了"预演-验证-行动"的闭环：机器人执行动作前，先在特征空间里推演"如果这么做，环境会如何变化"，再基于推演结果修正动作方案。

“世界模型不应该只在训练时预测未来，而应该真正参与动作生成。”谈及ω-EVA模型的技术理念，星源智联合创始人孙振国对AI智件表示，“我们想让世界模型真正'动手'，在机器人执行动作前，先在脑子里过一遍'如果这么做，会发生什么'。”

对话星源智：世界模型四种策略，我们为什么选择了最落地的那条？

在世界模型领域，星源智集结了一群以90后为主的新锐研究团队。其中，联创孙振国兼任智源研究院具身交互世界模型研究中心负责人，过往研究聚焦于机器人的全身控制以及世界模型领域；算法负责人何嘉伟聚焦于机器人的灵巧抓取。其他核心成员来自清华大学、北京大学、慕尼黑工业大学、智源研究院等顶尖研究机构和高校，在世界模型领域已耕耘多年。

ω-EVA模型的技术脉络，最早也可以追溯到星源智具身世界模型团队此前在医疗机器人和双臂灵巧操作领域的研究积累。在过往项目中，团队持续探索机器人如何理解动作后果、如何将多模态信息组织进决策过程，而这些能力最终成为交互世界模型的重要基础。

在大会现场，星源智用一块被随机打乱的华容道棋盘来展示ω-EVA模型的闭环能力。

华容道要求机器人在有限棋盘内理解滑块、空格与移动约束之间的关系，预演当前动作可能带来的状态变化，并依据后果反馈修正动作。在现场，无论观众如何打乱棋局，搭载ω-EVA世界模型的机器人都能基于新的状态变化完成路径规划与动作修正。

对话星源智：世界模型四种策略，我们为什么选择了最落地的那条？

能够把世界模型部署到端侧并进行真机演示，也从侧面反映出ω-EVA模型以及星源智公司一致的战略倾向：注重场景落地。

当前行业主流的视频生成路线（如英伟达Dream Zero）虽能打造foundation model，但需在桌面GPU上运行，常规端侧芯片的推理频率远不能满足实时闭环控制。

ω-EVA选择隐空间建模的方法，模型大小仅有1.2B，单卡4090即可训练，端侧模组就能运行。且模型能够在与真实世界的交互中不断自我更新。

不同的技术路线背后代表着两种不同的产品哲学：一条路线追求更强大的生成能力，先把未来“画出来”，另一种路线追求更务实的实现路径，把未来压缩成能够修正动作的信号，并在场景应用中不断进化迭代。

ω-EVA模型的产品路线和星源智公司的战略选择，两者的内核也是高度一致的。

星源智没有选择All in基础模型的研究，或者投入数年才能落地的家庭机器人方向，而是选择了在真实的工商业场景中，边落地、边迭代。

公司目前的商业模式是“双轮驱动”：一方面打造软硬件一体的“具身大脑”解决方案，目前客户已经覆盖了70%以上的头部具身公司，并成为英伟达Jetson Thor 全球最大出货商。

另一方面以总承包方的角色，与产业资源方展开深度合作，打造可复制、可落地、高价值的具身智能解决方案。

在场景落地中不断迭代和进化，也是星源智公司从创业之初就一直坚持的战略判断和发展路径。

在2026智源大会现场的圆桌对话环节，在被问及“当下具身模型发展，应优先迭代基座模型，还是快速落地真实场景？”时，创始人刘东再次重申了星源智的战略理念。

他表示：“基座模型迭代与场景落地验证必须同步推进。人工优化的实验室环境无法复刻真实场景的复杂问题，只深耕研发容易脱离实际市场需求。参考自动驾驶行业发展经验，快速落地、持续迭代的企业，才能率先收获市场回报、规避技术路线偏差。”

以下为包括AI智件在内的媒体与星源智团队的对话（略经整理编辑）：

探索更多新范式，把模型上限提上去

Q：今年世界模型很火，星源智对于世界模型技术路线的发展走势有什么样的判断？多条路线最后会收敛为一条吗？

孙振国：今日ω-EVA发布会有提到，目前行业里的世界模型技术路线大致可以分成三类：第一类是以视频生成为核心，侧重对生成过程做精细化约束，国内相关落地成果不少；

第二类侧重借助世界模型强化空间动力学的学习能力；

第三类是将世界模型用作数据生成工具，这类方案的核心定位是把世界模型当成模型训练的辅助任务。

在此基础上，星源智今天提出了第四种全新范式—— 交互式世界模型。它的核心逻辑，是把世界模型从过去的训练辅助角色，提升至整个体系的核心位置，所有相关研究都围绕世界模型展开。

对话星源智：世界模型四种策略，我们为什么选择了最落地的那条？

注：具身世界模型的四种策略

如果要我对行业发展趋势做判断，我坚定认为交互是核心主线，未来会衍生出多种围绕交互构建的世界模型技术范式。至于行业最终是否会收敛到我们这条路线，我不敢下定论，但结合现阶段的技术进展判断，我认为星源智当前所深耕的交互式世界模型，是最具备发展前景的方向。

Q：针对今天咱们篇幅最大的对执行策略修正的末端架构，这个架构可以赋能所有的世界模型吗？以及该架构在大语言模型，以及在智驾模型上有没有类似先例？

孙振国：没有先例，这是我们首创的一种模式。其他世界模型也可以用。

如果详细研究一下我们前面的Stage，它本质上就是做现在世界模型的范式，只不过我们的改进是把它从视频生成的底座模型拉回到我们认为可以做端侧部署的，以action作为条件的世界模型。但是他们的训练范式核心的逻辑是一样的，只不过我们在这上面也做了一些创新。

第三阶段提出的交互式动作反馈机制，本质上并不依赖于某一种特定的世界模型路线。换句话说，无论是 DreamZero 等未来生成路线，还是其他世界模型框架，如果希望引入交互能力或动作自修正机制，都可以借鉴并融入这一范式。

这也是我们设计ω-EVA 时的重要出发点之一。我们的目标并非构建一个与现有体系完全割裂的新框架，而是希望在现有世界模型研究基础上，提出一种具有普适性的交互机制，为整个行业提供可复用、可扩展的能力模块。

当前世界模型领域仍处于快速演进阶段，各类技术路线尚未形成统一范式。在这样的背景下，行业更需要探索新的研究方向和技术可能，而不仅仅是在既有框架下持续迭代。我们希望通过交互式世界模型的探索，为具身智能的发展提供新的思路，也为行业未来的技术演进带来一些启发。

Q：如何理解ω-EVA交互世界模型中的“交互”？为什么世界模型需要引入交互？

孙振国：这是我们提出交互世界模型最核心的出发点。

目前很多世界模型的工作，更多是把世界模型当成训练阶段的辅助工具。比如利用世界模型产生额外训练信号，或者约束表征空间，让模型学到更好的环境表示。但如果世界模型最终只是承担这些职责，那么它所发挥的作用其实非常有限。

世界模型最大的优势在于对未来状态的预测能力。它不仅能够理解当前环境，还能够推演未来在空间和时间维度上的变化过程。这种能力天然强于单纯基于VLM构建的VLA模型。

因此我们认为，如果要充分发挥世界模型的价值，就应该让它真正参与动作环节。具体来说，当机器人准备执行某个动作时，世界模型可以先预测这个动作可能带来的后果。如果预测结果不理想，那么机器人可以在执行前调整策略；如果预测结果更优，则继续执行。这样世界模型就不再只是训练时的辅助模块，而是直接参与决策过程。

这就是我们所说的交互。通过这种方式，世界模型对未来的理解能力能够真正作用于当前动作，并形成“预测—修正—执行”的闭环。进一步发展下去，它甚至有机会成为自我进化智能体的重要基础。

Q：看起来ω-EVA更强调动作预测和交互能力，语言理解能力似乎有所弱化，是这样吗？

刘东：其实并不能这么理解。我们最初的具身大脑模型就是基于VLM基座构建的，它本身具备较强的语言理解和图像理解能力。但过去这类模型更多停留在理解、识别和任务规划阶段，能够理解用户指令、识别环境信息，也能够完成一定程度的任务拆解和规划，却缺少对未来状态的预测能力，以及将动作条件纳入统一建模的能力。

这次发布的ω-EVA，本质上是在原有能力基础上补齐了预测和动作能力。模型依然保留了空间理解、3D语义地图生成以及任务理解等能力，同时进一步具备了预测未来状态、理解动作后果并进行动作修正的能力。我们的思路一直没有变化：不是推翻原有能力，而是在已有能力基础上持续补充新的能力模块，让模型最终能够形成完整闭环，并具备真正落地的能力。

Q：从VLA到世界模型，今天大家都在讨论数据量不是最重要的，最重要的可能是数据效率，星源智从VLA到世界模型的研发过程中对于数据利用效率有什么变化？

孙振国：这也是世界模型比VLA现在有优势的部分，对于VLA来说就是单纯的模仿学习，要训出比较好的模型需要的数据质量要很高，需要都是成功的数据。但是对于世界模型来说，哪怕是数采时失败的轨迹也是可以利用起来，用于世界模型训练的，这就导致了数据利用效率的提升。

另外，VLA就取决于不同的数据采集人员的素质，数据利用效率业界大概的标杆是这样，工作8小时可能最多产出3小时的高质量数据。对于世界模型来说如果工作8小时，除去中间的一些消耗，可能能把数据利用效率提高到6小时，甚至7小时。所以对于世界模型来说它的数据获取成本或者获取的难度是在降低的，这也是为什么大家现在更倾向于做世界模型或者把重心往世界模型上转的一个核心原因。

Q：星源智的公司战略里对于基座模型的研发是个什么定位，是否追求更高的泛化性和模型上限？外界的印象好像是我们比较注重场景落地和部署。

刘东：我们的基座模型肯定是要追求更高的上限，因为现在行业里面具身的模型能力普遍较低，没有一家落地能做的特别好的，所以我们要把上限提上去，才能把落地这个事情做好。

并不是先有落地再提高上限，上限没有上去的时候根本落不了地，干不了活，真正能干活的时候上限已经很高了，所以我们在模型基座能力的打造上花了很多时间。

如果模型不能部署到端侧，实际价值将大打折扣

Q：与英伟达Dream Zero等世界模型路线相比，星源智的差异在哪里？两种路线在部署方式和建模思路上的本质区别是什么？

孙振国：首先需要说明的是，不同团队对于世界模型的目标定位并不完全一样。以Dream Zero为例，它更偏向于打造一个大规模基座模型。这类路线通常会采用比较大的参数规模，同时通过大量数据训练获得更强泛化能力。英伟达本身拥有非常强的工程团队，因此能够对模型进行极致优化。即便如此，目前这类模型更多还是运行在桌面级GPU环境，而不是真正意义上的机器人端侧。这其实也是很多大模型路线面临的共同挑战。

而我们的路线有所不同。我们选择的是隐空间建模方式，比较接近JEPA这类技术思路。这类方法更加关注环境状态之间的关系，以及动作和未来状态之间的因果关系，而不是生成高保真的视频内容。因此，无论训练还是推理，对于算力资源的需求都会更低。

从我们的角度来看，机器人最终需要的是一个能够长期稳定运行、能够实时决策、能够完成动作闭环的系统。因此，我们更关注模型能否真正跑在机器人上，而不仅仅是模型规模能够做到多大。

Q：端侧部署对于具身机器人为什么如此重要？

刘东：这是一个非常现实的问题。如果不能端侧部署，那么机器人就只能依赖云端。而一旦依赖云端，就会遇到很多工程上的困难。

最直观的问题是，机器人到底怎么把数据传上去。现在一台机器人往往不只是一个摄像头。很多机器人至少有十个左右摄像头，有些还会配备激光雷达、深度传感器等设备。这些传感器每时每刻都在产生大量数据。如果把这些数据全部实时传输到云端，再由云端完成推理后返回结果，那么带宽需求会非常惊人。一台机器人可能还好解决，但如果一个仓库、一家工厂、一个物流中心同时部署几十台甚至上百台机器人，那么整个网络压力会急剧上升。

除此之外，还有延迟问题。机器人不是互联网应用。你可以接受搜索引擎慢一秒返回结果，但机器人不能接受慢一秒再决定下一步动作。摄像头通常以30赫兹频率采集图像，而机器人控制频率至少需要达到10赫兹以上。也就是说，每100毫秒左右，机器人就需要完成一次感知、决策和执行。如果这个过程中还要经过网络传输，那么延迟会迅速累积。

另外还有成本问题。如果未来机器人需要长期依赖5G、6G或者专用网络进行实时通信，那么整个部署成本会非常高。

因此，对于具身智能来说，无论是世界模型还是VLA，最终都必须尽可能在端侧完成推理。过去很多系统依赖云端协同，并不是因为云端更合理，而是因为当时端侧算力还不够。随着硬件的发展，我们认为未来绝大多数关键决策都会逐步回到机器人本体内部完成。

Q：ω-EVA的研究链路相对较长，端侧部署时会不会存在延迟或实时性问题？

刘东：不会。实际上，我们在设计ω-EVA的时候，就没有把它定位成一个只能跑在实验室服务器上的模型，而是从一开始就按照端侧部署的目标进行设计，它的大小只有1.2B。

很多人会认为世界模型天然比较复杂，因为它不仅要理解环境，还要预测未来状态，所以推理链路一定会很长。但我们的思路恰恰相反：如果一个模型最终无法部署到机器人端侧，那么它的实际价值会受到很大限制。

因此，在模型开发阶段，我们就非常关注参数规模控制、推理效率以及端侧平台适配等问题。围绕这些问题，我们做了大量底层优化工作。目前来看，ω-EVA在不依赖云端模型的情况下，依然能够实现较高帧率运行，并满足机器人实时控制需求。

Q：模型需要进行大量动作预测，是否意味着端侧需要承担更高的推理计算成本？

孙振国：很多人会有这样的误解，认为既然世界模型要预测未来，那么一定会带来更大的计算负担。实际上并不是这样。

首先，我们的模型本身体量并不大。其次，我们整个训练过程虽然分成三个阶段，但部署阶段并不会把三个阶段全部搬到机器人上运行。前两个阶段更像是在训练过程中帮助模型建立稳定的动作表征和预测能力，它们主要服务于训练，而不是服务于最终推理。

真正部署的时候，机器人只需要完成两个核心步骤。第一步是提出一个动作。第二步是让这个动作与世界模型进行交互，并获得最终结果。因此，最终推理链路其实没有大家想象得那么复杂。

更重要的是，我们大量计算都发生在隐空间（latent space）中，而不是生成视频或者图像。如果你真的去生成未来视频，那么计算量会非常大；但如果只是在隐空间中预测未来状态，那么计算成本会低很多。所以整体来看，我们的推理链路不仅没有比现有VLA更长，在某些情况下甚至可能更快。

在垂直场景中，打造真正具备竞争力的具身大脑

Q：如果越来越多本体厂商选择全栈自研，会不会压缩第三方具身大脑公司的市场空间？星源智未来会做本体吗？

刘东：首先可以明确一点，我们不会做本体。从我们的判断来看，未来具身智能行业很大概率会出现全栈公司，但数量不会太多。

今天行业里已经有接近200家具身相关企业。如果每家公司都同时做本体、做模型、做控制系统、做供应链、做制造，那么大多数企业都会被巨大的研发投入拖垮。

全栈模式本身是一种非常昂贵的商业模式，只有极少数企业具备这样的能力。例如特斯拉。它本身拥有足够大的收入规模和现金流，可以同时承担模型研发、本体研发以及大规模制造成本。但对于绝大多数企业来说，这条路并不现实。

因此我认为未来行业里可能会出现两到三家全栈公司，但不会更多。更多企业仍然会选择专业化分工，有些公司擅长做本体，有些公司擅长做大脑，有些公司擅长做场景，这是更符合商业规律的发展方式。

Q：如果华为、字节、腾讯等大厂未来全面进入具身智能赛道，星源智如何应对？

刘东：从我们的角度来看，大厂进入并不意味着马上就能建立优势。具身智能和互联网行业最大的不同在于，场景极其分散。自动驾驶虽然复杂，但本质上主要面对道路场景；而具身智能不同，物流是一个场景，工厂是一个场景，家庭又是另一个场景。每个场景都有完全不同的数据、流程和行业知识。

即便一家具身企业拥有非常强的基础模型能力，也不意味着能够迅速进入所有行业。以物流行业为例，如果没有长期积累的物流数据和作业经验，仅靠一个基础模型很难快速进入这个市场。

具身智能的潜力很大，但场景还没有完全收敛。物流、家庭、工业、服务业，每个方向看起来都有机会，但每个方向又都需要长期投入。对于大厂来说，他们通常希望进入一个确定性更高的市场，而当前行业仍处于探索阶段，因此很多企业还在观察，等待更明确的落地方向。

因此我们认为，未来真正的竞争不只是模型竞争，更是场景竞争。谁能够更早进入场景、理解场景、积累场景数据，谁就更容易建立优势。

Q：未来具身大脑市场最终会形成怎样的竞争格局？

刘东：我不认为最终会只剩下一家公司。因为具身智能和互联网产品不一样，互联网产品往往存在非常强的网络效应，因此容易形成高度集中。但具身智能面对的是大量不同场景。物流场景有物流场景的数据，家庭场景有家庭场景的数据，工业场景有工业场景的数据，这些场景之间差异非常大。

因此我认为未来更可能出现的是几家各自擅长不同领域的公司，有的擅长物流，有的擅长家庭，有的擅长工业。大家都会形成自己的数据壁垒和场景壁垒。最终行业会留下几家主要玩家，但很难出现一家企业覆盖所有场景。

Q：类比自动驾驶行业，为什么您认为具身智能也会出现“自研+第三方合作”并存的格局？

刘东：一定会有企业选择自研，这一点毫无疑问。但我不认为最终所有企业都会自研。因为机器人行业的客户结构远比汽车行业复杂，机器人行业未来可能会出现大量不同类型本体厂商。这些企业规模、能力以及资源投入水平差异非常大，因此不可能采用同一种发展路径。

从我们的角度来看，最终决定市场格局的还是商业价值。如果第三方方案能够帮助客户更快落地、更低成本完成任务，那么市场自然会存在大量合作机会。反过来，如果客户发现自己做得更好，那么他们也会选择自研。最终市场会给出答案。而我们的目标，是持续打造在垂直场景中真正具备竞争力的具身大脑能力，让客户愿意选择我们，而不是被迫选择我们。

Q：从未来五年的行业发展看，您认为具身智能最重要的竞争点是什么？

刘东：我认为未来五年最重要的事情，不是谁先做出最像人的机器人，而是谁能够率先把机器人真正部署到真实场景中持续创造价值。

对于具身智能来说，技术突破当然重要。但最终决定行业格局的，仍然是能否解决真实问题。那些能够率先进入场景、积累数据、形成闭环，并持续创造商业价值的公司，更有机会成为下一阶段行业发展的核心力量。

文章来自于微信公众号 “AI智件”，作者 “AI智件”

关键词: AI新闻 , 世界模型 , ω-EVA , 具身交互世界模型 , 星源智

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/