突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

6853点击 2025-09-06 11:21

人形机器人对跳舞这件事，如今是越来越擅长了。

比如跳一支查尔斯顿舞，一分四十秒的丝滑摇摆，稳定得像踩着节拍器：

不过，它们能否像人类一样自如切换跳舞、体操、日常操作等不同的动作模式？

北京大学与BeingBeyond团队联合研发的BumbleBee系统给出了最新答案：通过创新的“分治-精炼-融合”三级架构，该系统首次实现人形机器人在多样化动作中的稳定控制。

传统人形机器人控制策略长期面临两大核心挑战：

BumbleBee系统通过“分治-精炼-融合”三级架构，首次在单一控制框架内实现从专家策略优化到通用全身控制的跨越，为通用具身智能控制提供了全新解决方案。

突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

运动-语义联合驱动的动作分类：构建动作理解的“双通道”

系统通过多模态特征构建与联合隐空间对齐，实现动作在运动学与语义层面的双重表征：

运动学特征提取：基于SMPL格式的人类运动序列，通过前向运动学转换为世界坐标系中的3D关节坐标（如头部、骨盆、手脚等关键点），并补充脚部速度、根节点位移等动态物理量；最后通过Transformer编码。

语义特征编码：利用BERT模型对动作文本描述（如“托马斯回旋：水平旋转360度，双手支撑地面”）进行编码处理，并通过Transformer映射至与运动特征同维度的隐空间。

K-means聚类：在隐空间中对运动数据进行分类，形成结构化数据集。相较于传统手工分类，该方法自动捕捉动作的运动学特征与语义的关联，使聚类结果在运动学与语义上的一致性得到提升。

突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

仿真到现实的差异建模：弥合“现实鸿沟”

多专家融合的通用策略：通过DAgger算法将多个专家策略的知识蒸馏到一个通用策略中，实现跨动作类型的无缝切换。在MuJoCo仿真环境中，通用策略的成功率达66.84%，显著优于各类基线方法；真实机器人实验中，几分钟的连续舞蹈动作成功率100%。

仿真环境：超越基线的全面优势

研究人员在IsaacGym和MuJoCo仿真环境进行了全面评估，使用任务成功率（SR）、关节角误差（MPJPE）、关键点误差（MPKPE）等指标对比现有方法：

在更接近真实的MuJoCo环境中，BumbleBee的成功率达到66.84%，显著优于其他基线（最高仅50.19%）。

突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

真实机器人：稳定与灵活的双重验证

在Unitree G1平台上，系统表现出以下特性：

突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

突破具身智能“专家困境”！北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

接下来，研究团队计划在以下方向持续突破：

项目主页：https://beingbeyond.github.io/BumbleBee/

论文链接：https://arxiv.org/abs/2506.12779v2

文章来自于微信公众号“量子位”。