「卖铲人」华为给具身智能出了另一种解法。
华为开发者大会 2025(HDC 2025)上发布了 CloudRobo 具身智能平台。该平台可视为具身智能的「技术底座」,通过云端的「强智能」赋能机器本体,规避了本体侧智能进程慢,且部署成本高的痛点,摸索出一条涉猎范围最广、实现速度最快的具身智能落地路径。
「华为云的目标是让一切联网的本体都成为具身智能机器人。」华为云计算 CEO 张平安说道。
不做「本体」转而去做云端的技术赋能,华为云的布局思路虽是更符合自身需求的战略方向,但也为具身智能带来了发展新视角。
具身智能追求的并不是本体「构型」,或是本体的智能程度,而是站在「更好用」的终局视角,从人形到移动机器人再到卡车,让一切机器「具身智能化」,加速其在物理世界真正用起来的脚步。
这种终局思维,极大拓宽了具身智能产业化的想象空间,并为商业落地指明了潜在的效率最优路径。
工业领域的实践印证了这条路径的可行性:在工业喷涂领域,CloudRobo 助力埃夫特机械臂快速适应新喷涂任务;在半导体制造领域,CloudRobo 赋能优艾智合物流机器人,实时同步生产系统,更新任务规划,完成物料搬运及运输。
其合作方优艾智合、埃夫特等伙伴,都早已完成规模化商业应用。在工厂中丝滑穿梭,并完成海量作业。当业界仍在探讨人形机器人的「生产力时代」何时到来时,这些早已完成大面积应用的机器人,已经在技术跃迁下,率先释放具身智能的生产力价值,在真实场景中规模化兑现,步入「正在进行时」。
基于此,一条更务实且前景清晰的具身智能发展路线已然浮现:摒弃对单一形态的过度追求,转而聚焦于通过高效、普适的智能赋能手段,激活现有及未来广泛机器的「具身智能」潜力,以实际场景的生产力提升为标尺,构建可快速规模化复制的价值闭环。这标志着具身智能产业正迈向产业化的成熟阶段。
华为云用一张简单且足够直接的图片诠释了「具身智能」。除了活跃在聚光灯下的人形机器人外,还有在工业场景步履不停的移动机器人、生产线上忙忙碌碌的协作机械臂等。除了同样具备「本体」和「大脑」之外,其还有另一个共性:生产力。
业内之所以普遍将人形机器人视为具身智能的「究极形态」,原因也是对其「生产力想象空间」的期待。和人类外观高度统一,能完成和人类相似的动作,在理想状态下,人类可执行的任务范畴,人形机器人亦能覆盖,并可无缝融入以人体尺度设计的物理空间。
然而,该论断的深层要义实为追求「更广泛的任务执行能力」,其重点在于后者「生产力」而非形态本身。从应用场景的本质需求出发,关键在于机器人能否提供解决实际问题的有效生产力,其具体形态并非核心考量因素。
以工业制造场景为例,其高度标准化流程、成熟的自动化基础及高度结构化的环境,使之成为具身智能落地的首要阵地。该场景的另一关键特征在于对稳定性的严苛要求(即极低容错率),这直接驱动具身智能机器人必须确保运行的高度可靠性,以满足工厂端提质增效的核心应用目标。
在某国际头部晶圆厂的 8 寸晶圆车间,优艾智合超 50 台 OW8 晶圆盒搬运机器人,实现了从光刻到清洗全流程的自动化物流。OW8 机器人采用高精度 SLAM 导航技术,能够在复杂的车间环境中自主避障和路径规划。其独特的四面开口底盘设计,使得设备维护更加便捷,维修时间缩短 60% 以上。此外,机器人还配备了专利减震机构,确保运输过程中的振动值控制在 0.1g 以下,有效降低了晶圆破损率。
在实际运行中,OW8 单台机器人日均处理物料超过 240 次,整个系统单日物料处理量突破 12,000 次,完全满足了工厂 7×24 小时连续生产的需求。
优艾智合的案例已经再次验证了场景对于「生产力」需求的本质,是能干活。
除了工厂场景外,商业场景的高动态环境和实时变化的需求,亦要求机器人在感知 - 决策 - 执行闭环中飞速奔跑。目前商用机器人擎朗、云迹等正在完成从单一配送到具身智能的转换。机器人不再囿于方寸之间的配送,而是深度嵌入工作流完成配送、清洁等多任务,并打通全自动工作流,进一步减少人工参与。
综观工业与商业场景的实践,具身智能的产业落地路径已然清晰:其终极目标并非塑造某种特定的「终极形态」,而是锻造普适的「生产力引擎」。
无论是半导体车间里精准搬运的移动机器人,还是餐厅酒店中穿梭服务的配送机器人,其价值核心都在于以可靠的作业能力,深度融入工作流,切实解决效率瓶颈,释放人力并创造可量化的经济效益。
优艾智合、擎朗、云迹等企业的规模化应用证明,形态各异的本体搭载高效的大脑,正在多元场景中将「生产力时代」从愿景变为现实。产业的未来,不在于对单一形态的无限逼近,而在于如何让这枚「生产力引擎」适配更广阔的场景,驱动更高效的自动化进程,最终实现机器智能在物理世界的泛在价值兑现。
具身智能的终极命题,是生产力工具的涌现与进化。
剖析完场景真正需求后,新的问题随之而来:尚未大规模应用的人形机器人该何去何从?其和多形态具身智能机器人是迭代关系还是共存?
用一个最贴切生活的案例即可解答。
一家蓬勃发展的大型公司,既有深耕底层技术的「专家型」研发部门,又有穿梭在各个业务线、将线串联精准高效推进目标落地的「管理岗」运营团队。二者并非迭代取代,而是深度协同、优势互补。
对标到具身智能生产力来看,专家型就是当下已经应用的具身智能机器人,人形机器人担任的就是游走在各作业岗位完成非标作业的角色。在二者的相互配合下,场景等来了最懂它的解决方案。
当「形色各异」的具身智能以「集群协作」的形式出现在场景中,其新的课题为如何让机器人之间紧密配合,不仅能做到对工作任务的毫米级统一理解,还要做到机器人间的交流无障碍。
目前业内有几条技术路线,有的侧重本体间智能化提升,而有的选择从底座开始迭代。
以优艾智合为例,其研发的 MAIC 系统,以多模态通用基座大模型 +「一脑多态」端侧具身模型的混合架构为主,创造性地将通用智能控制系统与模块化硬件形态相结合。先赋予其更聪明的智慧,再让群体间做到「善于沟通」。
其中,多模态通用具身基座大模型负责复杂任务的规划和推理,训练数据来源于自主搭建的多模态空间数据平台,兼容上百种硬件形态的训练,具有海量的多模态真实训练数据,并能兼容主流的开源预训练数据集。
基础模型为多模态 VLM 模型,整合细分领域专业 RAG,在从指令到控制的转化中,添加规划器和评估器,规划器负责将复杂指令离散化,评估器在线评估控制质量并异常召回。
一脑多态的端侧控制模型负责多形态机器人的高频实时控制,以机器人智慧大脑 MAIC(Mobile AI Comprehension) 为核心,实现多形态机器人的多模态融合感知、自适应多臂协同操作、多形态移动控制、全域物流调度。该控制模型既保留了 AI 算法的推理能力,又能保证模型执行效率和精确性,是具身智能机器人高泛化操作的核心能力所在。
优艾智合还构建了面向多个专业领域的 Agent 聚合平台,将大模型与工业软件的深入融合。实现模型训练与微调,针对不同行业差异化的复杂下游任务的快速训练,基于 RAG 和思维链训练具备思考能力的专家 Agent,以及辅助全局生产排程优化。
透过优艾智合发布的视频可见,多「构型」的机器人在互相配合时,移动机器人每个动作精准无误一步到位,人形机器人在复杂任务中拆解动作,运动轨迹能做到细节微操级的调整。在跨形态机器人群体的认知耦合下,共同点亮了具身智能的「光束」。
因此,具身智能产业的终极竞赛,并非「人形」与「多形态」的路线之争,而在于谁能率先打造出普适、开放、高效的「群体智能协同」,编织一张覆盖物理世界的「智能生产力网络」。这要求产业参与者突破单体智能的思维桎梏,以生产力思维拥抱协同生态的构建。
文章来自于微信公众号“机器之心”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner