ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互
6015点击    2026-04-13 09:38

T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互


目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。


  • 论文标题:T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping
  • 论文链接:https://arxiv.org/pdf/2510.12724
  • 项目主页:https://nus-lins-lab.github.io/trograspweb/


一、引言


灵巧手抓取是机器人完成复杂操作的基础。目前基于深度学习的方法主要可以分为机器人中心 (robot centric)、物体中心 (object-centric) 和交互中心 (interaction-centric) 三种。


机器人中心的模型直接学习观测(如点云、图像)到动作指令的映射,推理速度快,但样本学习效率低,难以实现跨智能体的泛化。


物体中心的方法预测物体上的接触信息(如接触点或接触热力图),泛化性强,但根据接触信息优化抓取的动作指令复杂耗时,且无法适用于观测信息不全的应用场景。


此前,D (R,O) Grasp 提出了交互中心的灵巧手抓取表征,通过机器手与物体点云间的距离矩阵表示交互关系,弥补了机器人中心方法的泛化性不足,提升了物体中心方法的推理效率。


然而,D (R,O) 距离矩阵的预测需要巨大的计算开销,且该方法依赖于机器手初始姿态的合理性,因此难以基于 D (R,O) 表征搭建大规模灵巧手抓取模型。


为克服以上局限性,我们提出 T (R,O) 图结构作为灵巧手抓取的统一表征(如图 1 所示),将物体与机器手关节的几何、拓扑信息编码为节点,将其相对的位置关系表示为边。相较于 D (R,O) 距离矩阵,T (R,O) 图结构在保持表达能力的同时,提供了更高效、更轻量的建模方案。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 1.  T (R,O) 图结构与扩散过程


二、方法


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 2.  T (R,O) Grasp 整体框架


给定物体点云和不同机器手的 URDF 配置文件,模型的目标是输出多样的抓取姿态,并具备跨智能体的泛化能力。T (R,O) Grasp 的整体框架如图 2 所示,主要分为以下三部分:


1. T (R,O) 图结构的构建

2. 图扩散网络的训练与关节位姿矩阵的预测

3. 基于关节位姿矩阵的逆运动学求解


2.1 T (R,O) 图结构的构建


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 3. T (R,O) 图结构的构建


如图 3 所示,T (R,O) 图结构基于物体 — 机器手的相对位姿建模其交互关系。首先,物体点云通过预训练的 VQ-VAE 编码为图中的物体节点;其次,结合机器手关节的几何 BPS 特征与关节位姿信息,构建图中的关节节点;最后,在物体 — 关节和关节 — 关节之间,以相对位姿关系定义图中的边。


2.2 图扩散网络的训练与关节位姿矩阵的预测


基于 T (R,O) 图结构,模型可对关节位姿进行标准 DDIM 范式下的加噪 — 去噪训练,进而完成关节位姿矩阵的预测。其中,Denoiser 由多层 Transformer 组成,其网络结构如图 4 所示。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 4. T (R,O) Denoiser 网络架构


此外,得益于 DDIM 在推理阶段对多种 guidance 的良好支持,T (R,O) Grasp 在训练完成后能够在多种条件约束下生成抓取姿态,例如指定抓取方向、限定物体上的抓取区域等。


2.3 基于关节位姿矩阵的逆运动学求解


模型预测得到机器手在抓取时各关节的位姿矩阵,即可通过 Pyroki toolkit 即时求解如下逆运动学问题,得到抓取姿态的动作指令。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互


三、实验结果


在实验中,我们系统评估了 T (R,O) Grasp 在无条件生成以及条件约束生成(抓取方向与抓取区域)两种设置下的灵巧手抓取性能。实验采用抓取成功率、多样性和推理速度三个指标对模型进行评价。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 5. T (R,O) Grasp 与 baseline 性能对比


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取


图 5-8 显示,T (R,O) Grasp 在两种设置下的性能均超越现有方法,具备在多种约束下跨智能体生成准确、多样灵巧手抓取的能力。此外,T (R,O) Grasp 在实验硬件平台 NVIDIA 40GB A100 上平均可达到 5 FPS 的推理速度,为动态场景下实现闭环抓取提供了基础。


在真实机器人实验中,我们将算法部署于 xArm 机械臂平台,并在 XHand 和 LEAP Hand 两种灵巧手上进行了测试。实验结果表明,T (R,O) Grasp 在 XHand 和 LEAP Hand 上分别达到了 91.0% 和 90.0% 的抓取成功率。此外,在动态传送带环境中,T (R,O) Grasp 同样能够完成稳定抓取,验证了其在动态场景下的闭环抓取能力。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 9. T (R,O) Grasp 在 XHand 与 LEAP Hand 上的真实机器人抓取


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 10. T (R,O) Grasp 在传送带动态环境的真实机器人抓取


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md