涌现(Emergence),是生成式AI浪潮的一个关键现象:当模型规模扩大至临界点,AI会展现出人类一般的智慧,能理解、学习甚至创造。
「涌现」也发生在现实世界——硅基文明一触即发,AI领域的创业者、创造者,正在用他们的智慧与头脑,点亮实现AGI的漫漫征途。
在新旧生产力交替之际,《智能涌现》推出新栏目「涌现36人」,我们将通过与业界关键人物的对话,记录这一阶段的新思考。
“除了跳跳舞、翻翻跟头,人形机器人还能干什么?”
北京大学助理教授、银河通用机器人创始人及CTO王鹤可能是最有资格回答朱啸虎上述“灵魂拷问”的人。由他创立的银河通用是国内具身智能赛道的独角兽,也是行业第一梯队中最专注机器人“脑”的一家。
自2023年5月成立至今,银河通用只发布过一款机器人本体产品Galbot(G1),却发布了多款具身大模型。公司将大部分资源和资金投向了具身大模型研发,致力于提升机器人的通用性和泛化性。
在王鹤博士看来,人形机器人卷本体的结果是把机器人卖出钢铁原材料的价格,目前市场上已经出现了价格战的苗头;只有具身智能模型能力的提升,才能赋予人形机器人更高的价值。
通用具身大模型是人类前沿技术的“无人区”,背负这一宏大命题的王鹤,谈起具身模型当下的发展,却是出人意料的“保守”和务实:
“我特别不建议去讲具身的AGI,很多公司都希望一步实现具身的AGI,这一点我不认同。”
“具身智能模型还有很多不成熟的地方,距离什么活儿都能干可能需要五年到十年的时间。”
“大量的科研成果在过去这么长的时间里一直有出现,但可规模化生产的产品却一直没有落地。”
当下,不少国内具身智能模型厂商热衷于“秀肌肉”: 通过“叠衣服、刮胡子、拉拉链”等复杂操作的demo(样片)来展示其模型的泛化能力;银河通用则埋头于攻克“不那么复杂”的移动、抓取、放置技能,其对具身操作模型的命名一点也“不性感”——抓取基础大模型 GraspVLA。
王鹤对《智能涌现》直言,银河通用也在研发用衣架挂衣服的技能,但这种复杂操作只是一种科研成果,距离落地和产品化还有很远距离。
目前具身智能模型最接近场景落地的技能就是相对“简单”的Mobile, Pick and Place(移动、抓取、放置)。银河通用正致力于将Mobile, Pick and Place技能在药店、零售等部分场景率先落地应用。
据介绍,银河通用联合合作伙伴推出了全球首个人形机器人智慧零售解决方案,目前已经在北京开了近10家由机器人进行24小时无人值守的药店,银河通用的人形机器人不间断自动精确拣药,并交付给骑手。
公司计划今年在北京、上海、深圳等城市共开100家无人值守零售店。目前这一应用场景已经实现了市场化,预计今年将为银河通用带来近亿元人民币的收入。
在前不久的智源大会开幕式现场,银河通用机器人Galbot在主论坛舞台进行了现场直播真机演示。机器人在王鹤的语音指令下自主、精确地移动到准确位置并将饮料从货架取出,实现了复杂货架抓取与交付的全流程自主执行,全程无遥操,无需场景数据预采集。
△银河通用在智源大会现场展示抓取和交付 图源:企业授权
王鹤坦言,具身智能进入任何一个场景,都需要进行一些数据上的准备,才能打造百分百成功的产品。Mobile,Pick and Place技能还在持续更新中,银河通用选择从零售业的货架场景做起,逐渐提升操作的泛化性。
在王鹤看来,能把Mobile,Pick and Place这类“简单”操作的泛化性问题彻底解决,就已经是整个人类具身智能和机器人历史上的的重要里程碑。据他测算,这一技能的成熟可以打开数千亿元的新市场,在零售、前置仓、车厂SPS分拣等多个场景中帮助人类完成繁重劳动。
从泛化性的角度衡量,如果无所不能的人形机器人是100,掌握Mobile,Pick and Place技能的机器人是10,在零售业的货架场景进行Mobile,Pick and Place的落地仅仅是“1”。
当下的银河通用,已实现“从0到1”的突破,正向通用具身智能的终极目标迈进。
以下是《智能涌现》和银河通用创始人及CTO王鹤的对话。内容略经编辑:
《智能涌现》:公司现在员工规模有多大?
王鹤:我们现在百余人。
《智能涌现》:好像比同一梯队的同行要少一些。
王鹤:现阶段我们还是聚焦产研团队。银河通用目前,推出了一款人形机器人产品Galbot G1,围绕着在工业、零售、服务业等场景的核心需求出发,主打技能是移动、抓取、放置等。
我认为这个技能可以在工业、商业、服务业等各种广阔的场景里,构建一个完整闭环的Skill Set技能集,而不是去做很多发散的小技能,或者是多种多样的全品类的机器人产品,因为这样会导致用人规模大很多。
《智能涌现》:银河通用只做了一款本体,但发布了多款模型,是把更多资源倾斜在模型上吗?
王鹤:其实公司里做“硬件”的成员反而比做“软件”的更多,这个可能跟外界的想象不一样。外界可能认为银河通用只做一款产品,所以需要的硬件工程师不多。实际上我们和很多同行的机器人标准不一样。
如果机器人只用作科研、硬件平台,以及秀5分钟的demo,这种呈现形式对于产品的可靠性不要求高。这和一个真正能24小时工作的机器人可靠性差距非常大,因为它不能落地应用。
银河通用的硬件围绕着一款产品进行了多轮次、密集的迭代升级,这样我们才能真正实现机器人在无人值守药店场景里24小时工作。假如硬件出现问题,需要工程师来现场修理,这样成本会很高。所以我们产品的设计初衷,就按照造车规级、甚至是高于车规级的标准去打造人形机器人产品。
《智能涌现》:从资金投入上呢?
王鹤:作为一个具身大模型公司,我们投入最大的还是模型的研发。但这块不是靠堆人,因为没有一家公司是靠堆模型训练的员工来把模型做好。而是要建立整个从数据的基建到模型训练、测试,一整套闭环的团队。这里面算力费用占比很大。事实上,做模型的一些顶尖的天才级的人物,他们在哪一家公司的人数都不多。
《智能涌现》:重视合成数据“仿真派”是银河通用很鲜明的一个标签。不过很多同行也都说自己会用仿真数据,再结合一些互联网视频、真机数据等,大家的区别在哪里?
王鹤:合成数据仿真这个东西,不会的人用不好它,所以有人会说什么仿真“有毒”等等。银河通用能取得现在的成绩,合成仿真数据在其中扮演了非常重要的角色,基于我们自主研发的合成数据技术,我们的具身大模型的训练成本得以极大降低。同时我们也强调虚实融合,这让我们的具身大模型能真正跑在全球的领先地位。这正说明我们真正能用好合成数据。
比如互联网视频数据谁都可以下载,比它有一点门槛的是遥操。我们目前在商超、零售环境部署的具身机器人用到了遥操的真实数据,但它的比例远低于仿真合成数据。
合成数据的方式需要厂商有比较好的图形学、物理仿真、物理渲染和自动动作合成管线,包括验证闭环的一系列全套的基建,需要长期的积累和核心技术know-how。这些积累,也是银河通用为什么能把模型做得更好、而且更泛化的一个关键原因。
△银河通用Galbot机器人 图源:企业授权
《智能涌现》:咱们机器人本体是轮式底盘的,可以理解银河通用更加注重发展机器人的上肢操作能力吗?
王鹤:要看是在哪一端侧重,在产品端我们以落地的需求作为指引。
现在客户绝大多数考虑到企业自身的需求,比如在工厂和商超零售场景做一些移动、抓取、放置工作,都是要求底盘式的。双足机器人容易产生噪声,且续航还短。而我们的轮式底盘的机器人6-8个小时才充一次电,相较双足式有天然优势。
从研发的角度衡量,银河通用是全栈布局整个具身智能,针对双足人形机器人也有布局,但现阶段它并不是产品端真正可以广泛应用的产品。
《智能涌现》:迎宾、表演是今年新兴起来的场景,同行们都在大力进军,银河通用为什么没抢占这个场景?
王鹤:我的看法是,现在这些炫酷的场景是昙花一现。市场最终不是靠一波流量来取胜的,真正能够留存下来靠的是好的用户体验。
银河通用始终重视用户体验。比如大堂的迎宾机器人有很多,但主要是做了一些不痛不痒的工作。我们在做的是次时代的接待机器人产品,要让客户愿意用,可以真正协助人来工作。只要能做到这一点,我相信广阔的市场可以任你遨游。
所以我们并不是说不做,而是已经在布局,目前处于由很多点的技术形成线,正在线形成面的一个过程中。
《智能涌现》:投资方给我们商业化的压力大吗?
王鹤:投资人给了我们很大的支持,这些支持不仅在财务投资上,也有战略协同资源上。目前,我们已经有扎实的落地成果,公司今年应该能有可观的收入规模。
《智能涌现》:教育和科研市场呢,你们有没有布局?
王鹤:我觉得还是大家对于优先级的认知不一样。教育市场到底是一个多profitable的市场?它的天花板是多少台?实际上,已有充分多的双足企业加入了对教育市场的角逐。银河通用会聚焦于自己有优势的领域,从需求的角度出发,让机器人真正满足目前市场中存在的痛点。
银河通用关注的不是把人形机器人本体当做钢铁原材料一样的卖,因为人形机器人卷下去的后果是,大家以后都趋向于按材料成本定价。我们期望的是人形机器人能发挥有价值的工作,让具身智能真正创造智能化的价值。
《智能涌现》:您看到现在市场上有这种价格战的趋势吗?
王鹤:是的,现在是在疯狂降价。现在降到了小几万,未来可能有人报价更低。我们其实是乐见整个行业通过快速的硬件迭代,让硬件成本快速下降的。供应链的降本对于银河通用也有利。
问题在于这个售价的机器人到底能解决什么问题。我们现在专注做的是高价值的事情,我们一台机器人售价是大几十万元,客户仍然很愿意用,因为这显著缓解了三班倒员工的用人成本压力。这也是我们(预期)能够实现亿级收入的原因。
《智能涌现》:你卖几十万,为什么客户还能接受?
王鹤:我上面也提到过,别家卖便宜的人形机器人,用户对它的心理预期和我们做场景落地的机器人的心理预期是不一样的。我们的产品成熟度和可靠性的要求是不一样的。
银河通用的机器人可以连续工作一个月不出一次差错,这是我们核心竞争力优势。我把我们的机器人叫“场景落地机器人”,市面上用于科研和商场表演的那种,叫做“研发平台型机器人”。
《智能涌现》:你提到银河通用主打的技能就是围绕着移动、抓取、放置,但也有观点认为这类“PPT操作”((即Pick抓取、Place放置和Transfer转运)可以解决的实际问题、适应的应用场景非常有限。
王鹤:首先我不认可“PPT操作”的说法。我更倾向于用“Mobile,Pick and Place”,这也是国际上大家认知里更通用的表达。
现在在零售、仓储、车厂SPS分拣等场景中,我们看到的是大量的员工在做“移动、抓取、放置”的工作。如果有人认为这个市场可以开发的空间不大,那可能是因为他们没有真正了解市场需求。我看到的是一个数十万台的潜在市场,比现在全球工业机器人的总产值还要高。
《智能涌现》:这类“移动、抓取、放置”的机器人为什么还没有广泛落地应用起来?
王鹤:“Mobile,Pick and Place”技能还远未成熟,即使是技术比较领先的谷歌Deepmind的RT机器人也做不到落地。像银河通用在智源大会现场展示的智慧零售,让机器人负责取货、送货、上架,目前我没见其他厂商可以复现,特别是勇于在现场直播演示。
《智能涌现》:很多厂商会炫一些机器人拉拉链、刮胡子和叠衣服等更复杂的操作,他们投资方也将此视为比较高的技术成果。
王鹤:现在很多厂商在把不能落地的、不能产品化的一些科研亮点,说成是他们的产品。我们需要思考,叠衣服机器人到底什么时候产品化?现阶段它能达到效率要求、平整度要求和泛化性要求吗?
因为有这个科研成果,所以机器人产品就更好卖,这个逻辑是不成立的。实际上,大量的科研成果在过去这么长的时间里一直有出现,但可规模化生产的产品却一直没有落地。
我们其实也在研发新的技能,也会用衣架挂衣服。银河通用的合成数据背后有上百万件的衣服的虚拟资产。但实话实说,叠衣服要做到实用、可落地的程度,谁都还没有做到。
《智能涌现》:银河通用对外披露的落地场景,主要在药店、工厂和零售场景,这些场景哪些是市场化的,哪些还处于POC(Proof of Concept,概念验证)阶段?
王鹤:药店和零售场景已经是完全市场化了,我们的收入很大一部分来自这块。
工厂场景验证还处于POC阶段,因为工厂场景有些工作对于节拍、准确度和可靠性要求是很高的。特别是在高精尖制造当中,像新能源车的生产线,停工哪怕一分钟,都会带来巨大的损失。包括特斯拉和Figure AI,大家都处在POC阶段,都在打磨产品,让它最终可以整合到新开的产线当中。
银河通用率先在全球交付了很多行业标杆性POC项目,比如某国际知名车企场景里的SPS分拣POC、奔驰的搬物料箱子和天窗转运的POC、极氪的搬运POC。银河通用的进展是相当快的。但这个场景真正转化进入产线还需要一定时间。
《智能涌现》:这些车企不是你们的投资方。
王鹤:对,刚刚提到的几家车企合作方都不是我们的投资方,汽车厂商本身有很强的自动化的需求,所以和我们建立了战略性的合作关系。
《智能涌现》:你们发布过多个模型,除了具身抓取基础大模型GraspVLA,其他模型有商业化吗,比如刚发布的产品级端到端导航大模型TrackVLA。
王鹤:Track VLA我们会把它往C端的产品去打造。它能够在场景里跟人有很好的互动,包括做一些从工业巡检到商超的跟随搬运等等能力。我们现在也在跟合作方宇树科技,包括跟场景方一起去推动TrackVLA模型的应用。
我们的模型也可以跨不同的机器狗泛化。导航能力相较于操作能力更易于泛化到不同的本体上。
《智能涌现》:星尘智能和智元机器人都和Physical Intelligence(PI)合作了,用上头部的模型是不是可以更快商业化?
王鹤:我不了解他们和PI合作的具体细节。我了解到PI在广泛的地收集各个厂家的真机数据。从数据的角度,我不认同PI的做法。跨本体的、大量的、不同的机器人数据,对于机器人的训练来说是一个低质数据。
《智能涌现》:现在全球第一梯队的具身智能模型能力,如果类比AI大模型,处于哪个阶段?
王鹤:这很难去类比,具身智能模型涉及的维度更高。
例如在自动驾驶领域,大家会讲L1-L5,自动驾驶是围绕着开车这一件事,而具身智能涵盖了非常多的事,你可以做好“Mobile,Pick and Place”,但不一定能抱小孩、扶老人起床。
在具身智能的每一款产品上都有L1到L5的不同层级。我们的期望是,具身智能产品能够被称作产品时,至少应该达到L4的水平,即具备自主性,而非仅仅是辅助。
相较于大型语言模型,我认为通用具身智能的实现是一个长期的技术进步的过程,而非短暂的智能爆发。
《智能涌现》:所以具身智能模型的“ChatGPT时刻”还有较远的距离。
王鹤:是的。ChatGPT展现了通用问答的能力,而具身智能模型想要什么活儿都能做,从硬件和传感器到数据采集还有很多事情要做,还有很多不成熟的地方,它可能需要五年到十年的时间。
我们人类干活的时候,实际上除了视觉、语言、动作(即Vision-Language-Action),还有听觉、嗅觉、味觉、触觉以及对温度的感知,在不同的任务中都有去不同程度的使用。所以VLA模型只是一个起点,如果想达到人类级别的具身智能,那还需要不断融入新模态。
那VLA现在能干什么呢?我觉得是把“Mobile,Pick and Place”先做得非常泛化,在一个可批量复制的场景里做好,比如所有零售店、所有工厂的分拣线。如果这个能达到,这会是整个人类具身智能和机器人历史上的的一个里程碑。它的意义不亚于我们今天机器人实现了“黑灯工厂”。
《智能涌现》:业内同行都在往这个里程碑的方向走吗?还是在追求一些别的技术突破。
王鹤:我觉得行业里真正愿意做实事的人少,愿意卖硬件、卖平台的人多。把东西卖给用户后,用户怎么用它不需要对功能负责了,这种厂商多。真正愿意去做模型的厂商里,做学术研究的人多,真正做能落地的模型产品的人少。这两个“少”都导致了具身智能行业相对“混乱”的局面。
《智能涌现》:“Mobile,Pick and Place”要在服务业,诸如药店、便利店落地,还有哪些待改进的地方吗?
王鹤:具身智能进入任何一个场景,都需要进行一些数据上的准备。不管是合成数据,还是真机数据的小规模采集,甚至不排除做场景中的强化学习,才能打造成一个百分百成功的产品。
我们目前追求的并不是所有的“Mobile,Pick and Place”都做,而是先围绕着货架,甚至是超市的货架,先保证它很好的泛化,最后才是我们日常环境中各种地方放的东西。所以这条路没有大家想得那么简单。
《智能涌现》:在“Mobile,Pick and Place”之外,银河通用的下一个Milestone会是什么操作,做了哪些技术的储备?
王鹤:银河通用有数位业界顶尖学者,大家在一起推动科研创新的进程。从研究上讲,我们会不断地推进新的技能,包括足式机器人,灵巧手的研究——这也是我获过多次Best Paper的殊荣,更加终极的末端、本体上面的技能的学习。
对于研发,我们的战略就是引领,并且永远保证在一线。银河通用的使命是让通用机器人服务千行百业,千家万户。
文章来自于“智能涌现”,作者“王方玉”。
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales