1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

11405点击 2025-11-25 16:33

1米3的机器人小土豆，三步上篮也可以如此丝滑。

别误会，这台宇树G1暂时还不准备参加NBA选秀，但它刚解锁的 “现实世界打篮球” 技能，离上“村BA”首发应该不远了。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

据悉，这是全球首个能在真实场景中完成篮球动作的机器人demo，来自香港科技大学的研究团队。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

虽然团队还没公开完整的技术细节，但结合他们此前让机器人“打篮球”的工作，这次很可能是在之前研究的基础上，进一步改良而来。

接下来，让我们一窥究竟。

首先是被收录于SIGGRAPH 2025的SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

SkillMimic-V2旨在解决交互演示强化学习（RLID）中演示轨迹稀疏、含噪且覆盖不足的难题。

其通过引入拼接轨迹图（STG）与状态转移场（STF）、自适应轨迹采样（ATS）等技术，成功地在低质量数据条件下，训练出了兼具鲁棒恢复能力与技能迁移能力的复杂交互策略。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

当前，通过动作捕捉等方式收集的数据往往存在以下缺陷：

这些有缺陷的数据无法捕捉到技能变体和转换的完整频谱。

不过，相比直接去收集更好的数据，研究认为尽管演示数据是稀疏和嘈杂的，但存在无限的物理可行轨迹 。

这些潜在的轨迹天然地能够桥接不同的技能，或者从演示状态的邻域中涌现出来。

这就形成了一个连续的、可能的技能变体和转换空间，从而可以利用这些不完美的演示数据，训练出平滑、鲁棒的策略。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

基于以上认识，研究提出三个关键步骤发现并学习这些潜在轨迹：

拼接轨迹图 (Stitched Trajectory Graph, STG)：为了解决技能间的连接问题（如从运球切换到投篮），算法在不同演示轨迹之间寻找相似状态。如果在两个不同技能的轨迹中发现相似状态，就建立一条连接，并用掩码标记中间的过渡帧。这构建了一个宏观的图结构，允许策略学习未在原始数据中出现的技能转换。
状态转移场 (State Transition Field, STF)：训练时不只从参考轨迹的特定点开始，而是从其邻域内随机采样状态初始化。对于邻域内的任意采样状态，计算其与参考轨迹中所有状态的相似度，找到最佳匹配目标。如果起点与目标点距离较远，算法会插入N个掩码状态（Masked States）。这些状态不计算奖励，仅作为时间缓冲，迫使RL策略学习如何从偏离状态“归位”到参考轨迹，从而形成一个具有恢复能力的“场” 。
自适应轨迹采样 (Adaptive Trajectory Sampling, ATS)：根据当前策略在某段轨迹上的表现（奖励值）动态调整采样概率。奖励越低（越难学）的片段，被采样的概率越高。这解决了长序列中因局部失败导致整个链条断裂的问题。

由此，技能转换和泛化能力能够远超最初不包含任何技能转换或错误恢复的稀疏演示，实现更高效地技能学习与泛化性。

比如，在仿真环境（Isaac Gym）中，机器人可以在受到干扰时，仍可以完成上篮动作。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

还能实现运球-投篮间的技能转换。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

实验表明，相比此前的SOTA (SkillMimic)方法，SkillMimic-V2在困难技能（如 Layup）上的成功率从0提升到了91.5%。技能转换成功率 (TSR) 更是从2.1%飙升至94.9%。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

接下来是SkillMimic-V2的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations，这篇论文入选了CVPR 2025 Highlight。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

SkillMimic旨在解决物理模拟人-物交互（HOI）中传统方法依赖繁琐手工奖励设计且难以在统一框架下掌握多样化技能的难题。

其通过引入统一HOI模仿奖励与接触图（Contact Graph）、分层技能复用等技术，成功地在单一奖励配置下，训练出了兼具精准接触控制与长程任务组合能力的通用交互策略。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo

研究pipeline包含三个部分：

其中，SkillMimic方法的关键在于：

统一的HOI模仿奖励（Unified HOI Imitation Reward）：放弃针对每种技能单独设计奖励，而是设计一套通用的奖励配置，通过模仿HOI数据集来学习所有技能。
分层学习架构（Hierarchical Solution）：低层：交互技能策略（IS Policy）：通过SkillMimic框架学习各种基础交互技能（如运球、上篮）。高层：高级控制器（HLC）：训练一个高级策略来复用和组合已习得的IS策略，以完成长程复杂任务（如连续得分)。
数据驱动：构建了两个数据集BallPlay-V（基于视频估算）和BallPlay-M（基于光学动捕，精度更高），包含约35分钟的多样化篮球交互数据。

实验表明，SkillMimic能够使用同一套配置学会多种风格的篮球技能（运球、上篮、投篮等），成功率显著高于DeepMimic和AMP。

1米3宇树G1完美上篮！港科大解锁全球首个真实篮球机器人Demo