大数据和大模型已成为具身智能领域业界和学术界的焦点,人们也在期待人形机器人真正步入大数据、大模型时代。然而,行业一直缺乏稳定的人形机器人全身遥操作与数据采集方案。
近日,银河通用机器人携手清华大学发布了全开源、多机型、跨虚实的人形机器人全身遥操作系统——OpenWBT。即便是新手,也能在小时内从零完成部署,并以接近日常人类工作空间的方式,高效采集人形机器人全空间操作数据,为打造具备操作智能的人形机器人提供坚实的数据支撑。目前 OpenWBT 已经在 GitHub、Gitee 等开源平台全面上线。
「如果机器人只能站直不动,它的作业空间可能还不如一台扫地机。」研究团队成员解释道。传统遥操作往往仅依赖上半身控制,而 OpenWBT 通过全身运动控制,让机器人实现移动、碰高、摸低等多种能力。只需要一款 VR 头显,就可以遥控多种机器人,使其像人类一样弯腰拾起地上的物品,或伸手擦拭高处的窗台。
只需要一副 VR 头显、一台笔记本电脑,新手也可以在小时内从零完成系统的快速部署。不受场地限制、无需复杂的设备校准与穿戴,躺在家里床上,也可以遥控千里之外的机器人。
OpenWBT 不仅兼容 29 自由度的 Unitree G1,还支持拥有成人身高的 Unitree H1,可轻松覆盖成年人完整的工作空间,成为对人类劳动力的有力补充。
OpenWBT 同时支持在真实世界和仿真环境中进行遥操作。在真实世界中遥操作,可避免感知与控制的域偏差,直接获得高质量机器人数据;在仿真环境中遥操作,无需搭建物理场景,便于快速采集和大规模数据增强,提高样本效率,并为后续模型的泛化能力奠定基础。
首先将运动分为若干原子技能(如走、蹲、前倾等),针对每种原子技能设计专门的奖励函数与训练策略,使其可以稳定迁移到真实世界中。然而,当机器人需要在这些原子技能之间频繁切换的时候,由于缺少对技能间组合与过渡的建模,机器人仍然难以保证稳定。
因此,进一步通过强化学习对原子技能的组合与衔接进行优化,并利用条件变分自编码器对包括原子技能及其组合衔接在内的各种底层控制进行统一生成式建模,我们将该生成空间命名为 Real-world-Ready Skill Space,即依据高层级任务需求,我们可以从该空间中选取特定的技能与组合,进而实现稳定的全身控制。把复杂的多技能 sim2real 问题拆分成可解决的单技能 sim2real 问题,再利用层次结构与生成式建模把技能整合起来,仿真到真实(sim2real)迁移难题就不再可怕。具体来讲,该工作的技术核心包括以下三点:
让机器人学会一种 skill 很难,让机器人学会多种 skills 更难,让机器人能够将学会的多种 skills 进行稳定的 sim2real transfer 更是难上加难。一般的端到端强化学习受限于优化难度和 sim2real transfer 稳定性,很难同时学会多种可在真实世界稳定运行的技能。
因此,本文提出首先通过基于启发式奖励函数的强化学习构建一个「真实世界稳定」的原子技能库。从功能性上设计出不同的原子技能,每个技能由专属的奖励函数训练,并通过 sim2real transfer 验证其在真实世界中的稳定性。
该工作将机器人的全身控制拆分为了三种不同的原子技能:locomotion、body-pose-adjustment 和 hand reaching。
Locomotion 负责让机器人健步如飞,body-pose-adjustment 支持机器人像人一样弯腰下蹲,hand-reaching 使得机器人双手可以精确触达目标点。
针对 locomotion,该工作使用步态引导产生稳定的行走动作:
针对 body-pose-adjustment,该工作鼓励在运动学和动力学上的对称性来实现稳定的机器人动作控制:
分开训练虽然大大保证了原子技能在真实世界的表现,但是却不足以支撑真正的机器人全身控制,因为这需要机器人能够在不同技能之间协同、切换。因此,在原子技能库基础之上,该工作进一步提出一种 IL+RL 的技能融合策略,通过结合监督学习和强化学习的损失:
使得机器人能够同时掌握多种技能,并将其编码到一个技能隐空间当中,并通过 KL 散度和约束函数使得其空间更具结构性:
执行时,policy 只需要从隐空间解码,便可得到真实的关节力矩,在保留原子技能的真实世界稳定性的基础之上,实现原子技能之间的稳定组合与衔接,大幅扩展机器人的运动空间。
图注:从 a 到 d,机器人逐步解锁下蹲与前倾能力,机器人可触达空间逐步增大
该工作可以很好的支持全身遥操的需求,只需将遥操指令与机器人状态进行联合编码即可选取合适的技能组合并完成对机器人的稳定全身控制。此外,该工作也可以被应用在分层强化学习当中,帮助机器人自主完成一系列触达任务,例如基于环境感知的碰点、搬箱子等。
该工作发现,技能融合时得到的技能隐空间,是一个非常高效的关于机器人全身运动的表征方式,将高维无序的机器人动作编码为具有高度结构性的技能空间。高层规划策略只需要从该隐空间中采样,便能略去底层运动控制的细节,使得机器人以稳定的方式完成各种任务。该工作通过实验验证了其技能隐空间对于任务学习的有效性:
图注:不同方法在自主触点、自主搬箱任务中的对比,SR 代表成功率,DE 代表距离偏差
研究团队表示 OpenWBT 在持续更新中,在未来支持更多的机器人类型与更加复杂的技能类型,OpenWBT 项目也欢迎大家加入,持续招募全职工程师和实习生,期待全球开发者共同参与测试、优化,推动通用人形机器人技术发展。
文章来自于“机器之心”,作者“张智楷、薛晗”。