Scaling Law在物理世界失灵了吗?
大模型重塑数字世界之后,物理AI成为了下一个征途。
但在自动驾驶之后,通用机器人正面临着一道前所未有的工程天堑——
真实物理世界开放、连续且强因果约束,任务高度多样、交互对象不可穷举、失败成本极高。
行业正达成新共识:
Scaling Law依然有效,但仅靠堆砌真实数据已触及天花板。
要实现规模化进化,通用机器人必须在行动前具备“理解、推演并评估物理世界”的能力。
于是,世界模型(World Model),以及进一步的环境与动作统一建模架构——World-Action Model(WAM),正在成为物理AI的关键基础设施。
作为具身智能领域的代表性玩家,由上海交大系技术“双子星”——何弢博士与廖文龙博士联手掌舵的酷哇科技(Coowa),近期发布了其核心技术底座——COOWA WAM 2.0世界模型。
这次升级标志着机器人开始从“动作复现”转向“规划推理”,完成了从模仿者向思考者的跃迁。

过去十年,深度学习的成功主要建立在“大规模真实数据驱动的自监督学习”之上,GPT系列正是这一范式的典型代表。
然而,如果将这一逻辑迁移到机器人领域,却可以发现一个尴尬的分布外(OOD)陷阱。
语言系统的词汇与语法规则虽然庞大,但终究是有限的,新样本大多落在既有的语义流形之内。而物理世界截然不同——状态与交互的组合近乎无限,且动作的后果无法仅由历史共现模式推断。
在这样的系统中,仅依赖真实数据的模仿学习存在一个致命的数学缺陷:累积误差(Cumulative Error)。
在长序列的多步决策中,微小的状态预测偏差或动作执行误差,会随着时间和环境反馈被不断放大。
这导致系统迅速偏离训练数据的分布,进入模型从未见过的“未知区域”。一旦进入该区域,机器人行为失稳甚至灾难性失效便不可避免。
更由于物理世界的不可逆性,我们无法像训练AlphaGo那样在真实世界中进行无限次的试错。高质量交互数据采集成本高、长尾场景(Corner Case)复现难,构成了物理AI的“数据长城”。
因此,通用机器人必须引入反事实推演(Counterfactual Reasoning)能力——即机器人在执行动作之前,在脑海中预演“如果我这样做,世界会变成什么样”。

这正是World-Action Model (WAM) 存在的意义。
传统的机器人系统遵循“感知(Perception)→ 策略(Policy)→ 控制(Control)”的线性链路。
这种设计的局限在于,系统无法内在建模动作的潜在后果,本质上是一种高维的“条件反射”。

酷哇科技的COOWA WAM 2.0带来的是一种系统级的范式升级,它是一个可学习的神经模拟器,通过统一建模以下三大元素,实现了可推演的决策能力:
在这一架构下,机器人不再盲目行动,而是基于对世界的理解进行“思想实验”。

为了实现上述能力,COOWA WAM 2.0在工程上构建了四大核心模块,巧妙地融合了“快思考(直觉)”与“慢思考(推理)”。
低层的像素信息难以直接用于决策,机器人需要理解画面背后的语义。
该模块利用图像-文本对齐(Masking + 对比学习)技术,提取高层语义特征。

它将纷繁复杂的视觉输入,映射为可理解、可计算的环境表征(Latent Representation)。
这不仅解决了感知信息过载的问题,更为后续的直觉系统和推理系统提供了统一、可迁移的感知基础,实现了跨任务与跨场景(如从环卫车到人形机器人)的泛化能力。

这是世界模型的核心。
该模块通过对环境状态序列建模,学习物理规律、对象交互和场景演化模式,有点类似于Sora的视频生成能力,但它更专注于动力学的一致性。
通过自监督预测训练,它能生成未来可能的动态场景,为机器人提供一个零成本的虚拟试验场。
在这里,机器人可以前瞻性地评估动作后果,从而规避现实中的风险,极大降低了累积误差的影响。
在开放环境中,机器人不能对每一个动作都进行耗时漫长的逻辑搜索。
直觉行动系统扮演了“系统1”的角色。

它基于环境的高维表征和模仿学习习得的经验规律,不依赖逐步搜索,而是直接利用直觉模型预测潜在动作结果,快速并行生成多组动作候选。
这使得机器人即便在面对突发状况时,也能基于经验生成合理的应对方案,保证了响应的实时性。

直觉系统虽然快,但容易产生幻觉或违反长期目标。
此时,需要VLM(视觉语言大模型)介入,扮演“系统2”的角色。
在COOWA WAM 2.0中,VLM不直接生成底层的连续控制信号(因为不够精准),而是承担宏观规划与因果约束。
这种“直觉生成+VLM约束”的互补架构,既保证了机器人动作的快速反应,又确保了决策符合人类意图与物理常识。
COOWA WAM 2.0的出现,标志着通用机器人正在从“单一技能模型”走向“通用认知底座”。
但在酷哇科技他们看来,技术架构的完成度只是第一步,商业系统的鲁棒性才是检验物理AI是否成熟的终极标准。
得益于COOWA WAM 2.0带来的极高泛化能力与低边际部署成本,酷哇打破了具身智能领域长期存在的定制化陷阱和难以规模化魔咒,预计2026年全系机器人交付量将突破10,000台,并在全球50多个城市及地区实现常态化运营。
更具里程碑意义的是,酷哇近期宣布其已率先实现年度EBITDA(息税折旧摊销前利润)回正,证明了其通用机器人已从依靠资本输血的科研原型,蜕变为具备自我造血能力和商业确定性的工业级产品。

在这一商业基石之上,酷哇正在构建一个被称为“Robo City”的未来城市图景。
在酷哇的构想中,未来城市中的数万台异构机器人将由一个个孤立的个体,跃升为通过WAM共享同一个“世界认知”的智能集群,具体包括以下组成部分:
它们共同构成了一套覆盖全城的物理智能体网络(Physical Agent Network),像水电网一样,成为维持现代城市高效运转的新型基础设施。

万台通用机器人重构现实,WAM在沙盒中推演未来,物理AI才真正迎来了属于它的高光时刻。
酷哇科技,不仅是这套新基建的定义者,更是跑在最前面的破局人。
真是酷哇~
文章来自于微信公众号 “量子位”,作者 “量子位”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md