突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻
5323点击    2025-09-06 11:21

人形机器人对跳舞这件事,如今是越来越擅长了。


比如跳一支查尔斯顿舞,一分四十秒的丝滑摇摆,稳定得像踩着节拍器:


突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻


不过,它们能否像人类一样自如切换跳舞、体操、日常操作等不同的动作模式?


北京大学与BeingBeyond团队联合研发的BumbleBee系统给出了最新答案:通过创新的“分治-精炼-融合”三级架构,该系统首次实现人形机器人在多样化动作中的稳定控制。


破解“专家困境”与“现实鸿沟”


传统人形机器人控制策略长期面临两大核心挑战:


  • 专家困境:单一任务优化导致系统复杂度增长,难以覆盖多场景需求。


  • 现实鸿沟:仿真环境训练的策略在真实物理世界中表现断崖式下降,动作执行精度与稳定性无法保障。


BumbleBee系统通过“分治-精炼-融合”三级架构,首次在单一控制框架内实现从专家策略优化到通用全身控制的跨越,为通用具身智能控制提供了全新解决方案。


突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻


运动-语义联合驱动的动作分类:构建动作理解的“双通道”


系统通过多模态特征构建与联合隐空间对齐,实现动作在运动学与语义层面的双重表征:


  • 运动学特征提取:基于SMPL格式的人类运动序列,通过前向运动学转换为世界坐标系中的3D关节坐标(如头部、骨盆、手脚等关键点),并补充脚部速度、根节点位移等动态物理量;最后通过Transformer编码。


  • 语义特征编码:利用BERT模型对动作文本描述(如“托马斯回旋:水平旋转360度,双手支撑地面”)进行编码处理,并通过Transformer映射至与运动特征同维度的隐空间。


  • 联合潜在空间对齐:通过对比学习将运动特征与语义特征在同一隐空间对齐,确保具有相似语义或者运动特征的动作在隐空间中靠近,形成运动-语义联合表征。


  • K-means聚类:在隐空间中对运动数据进行分类,形成结构化数据集。相较于传统手工分类,该方法自动捕捉动作的运动学特征与语义的关联,使聚类结果在运动学与语义上的一致性得到提升。


突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻


仿真到现实的差异建模:弥合“现实鸿沟”


  • 专家策略训练:在每个动作簇内训练专家运动跟踪策略,并通过增量动作模型(Delta Action)补偿仿真与现实的物理差异(如电机延迟、地面摩擦力变化)。


  • 多专家融合的通用策略:通过DAgger算法将多个专家策略的知识蒸馏到一个通用策略中,实现跨动作类型的无缝切换。在MuJoCo仿真环境中,通用策略的成功率达66.84%,显著优于各类基线方法;真实机器人实验中,几分钟的连续舞蹈动作成功率100%。


实验验证:数据驱动的性能突破


仿真环境:超越基线的全面优势


研究人员在IsaacGym和MuJoCo仿真环境进行了全面评估,使用任务成功率(SR)关节角误差(MPJPE)关键点误差(MPKPE)等指标对比现有方法:


在更接近真实的MuJoCo环境中,BumbleBee的成功率达到66.84%,显著优于其他基线(最高仅50.19%)。


突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻


真实机器人:稳定与灵活的双重验证


在Unitree G1平台上,系统表现出以下特性:


  • 动作稳定性:轻而易举地完成各类长程舞蹈任务。


突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻


  • 高难度动作控制:可以进行托马斯回旋、侧手翻等动作。


突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻


接下来,研究团队计划在以下方向持续突破:


  • 多模态感知融合:整合视觉-惯性里程计与触觉反馈,提升动态环境适应性。


  • 自然语言指令驱动:通过自然语言指令直接生成动作序列(如“跳一段欢快的舞蹈”)。


项目主页:https://beingbeyond.github.io/BumbleBee/


论文链接:https://arxiv.org/abs/2506.12779v2


文章来自于微信公众号“量子位”。


AITNT-国内领先的一站式人工智能新闻资讯网站