机器人对可形变物体的操作(Deformable Object Manipulation, DOM),是衡量通用机器人智能水平的关键指标之一。与刚体操作不同,衣物、绳索、食物等物体的形态不固定,其状态空间维度极高,且物理交互过程呈现出复杂的非线性动力学特性,为感知、规划和控制带来了巨大挑战。
传统的服装折叠方法往往依赖于预定义的关键点或演示数据 [1, 2],这严重限制了它们在不同服装类别间的泛化能力。现有研究大多采用基于规则的启发式方法或依赖人工演示的学习方式,这些方法在面对多样化的服装类型和用户指令时表现出明显的局限性。
近年来,随着基础模型在计算机视觉和自然语言处理领域的巨大成功,研究者们开始探索将这些先进技术应用于机器人操作任务 [3]。视觉和语言引导的机器人操作已成为当前研究的热点,它能够让机器人理解自然语言指令并执行相应的操作任务。然而,在可变形物体操作,特别是服装折叠任务中,如何有效结合视觉和语言指导与物理操作仍然是一个亟待解决的问题。
在此背景下,MetaFold 旨在填补现有研究的空白:创建一个既能理解人类语言的丰富内涵和场景的视觉信息,又能精准、泛化地操作多类别衣物的、具有良好解释性的机器人框架。
目前,该论文已被机器人领域顶级会议 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 接收。
MetaFold 采用了一种创新的分层架构设计,将复杂的服装折叠任务分解为两个相对独立的子问题:任务规划(task planning)和动作预测(action prediction)。这种分离式设计受到人类神经系统结构的启发 —— 大脑负责高级任务理解和物体识别,而脊髓和外周神经系统管理手部运动和抓取动作。
该框架的核心思想是通过语言引导的点云轨迹生成来处理任务规划,同时使用低级基础模型来进行动作预测。这种模块化设计不仅简化了训练过程,还显著提高了模型在不同服装类别间的泛化能力。
Fig. 1 MetaFold 框架
数据集生成与标注
由于当前衣物折叠数据稀缺,研究团队首先构建了一个包含 1210 个服装和 3376 条轨迹的大规模数据集。该数据集基于 ClothesNet [4] 提供的服装模型,使用 DiffClothAI [5] 可微分仿真器生成高质量的点云轨迹数据。
对于不同种类的衣物,研究团队首先使用启发式的方法生成折叠轨迹,并记录每时刻的衣物网格。从连续帧的衣物网格中,可以提取出衣物的点云轨迹。研究团队对这些衣物的折叠轨迹进行筛选,将失败的折叠轨迹去除,构建了一个成功折叠的衣物折叠数据集。
数据集涵盖了四种主要的折叠类型:(1)无袖折叠(包括连衣裙、裙子和无袖上衣)(2)短袖折叠(3)长袖折叠(4)裤子折叠。每个轨迹都配有相应的自然语言描述,用于指导折叠过程。
数据集已经在 huggingface 上开源:
开源地址:https://huggingface.co/datasets/chenhn02/MetaFold
轨迹生成模型
轨迹生成模型的核心是一个基于注意力机制的跨模态融合模型。它首先通过独立的编码器分别提取点云的几何特征和语言指令的语义特征,然后利用交叉注意力机制来深度融合这两种模态的信息,从而理解指令在特定几何形态上的具体意图。
该模型的输出并非直接的机器人动作,而是衣物形态在未来的一系列几何快照。这种以点云轨迹作为中间表征的设计是 MetaFold 的关键创新之一,其优势在于:
轨迹生成模型基于条件变分自编码器(CVAE)构建,其编码器和解码器均采用 Transformer 编码器架构。该模型接收点云观察和语言描述,生成点云轨迹。模型使用 PointNet++ 提取点云空间信息,得到点云特征。同时,LLaMA 模型处理语言描述的语义信息,经过降维后得到语言特征。
底层操作策略
ManiFoundation [6] 模型将操作任务形式化为接触合成问题。接收两个连续点云状态,模型将输出从上一个点云状态转移到下一个点云状态所需要的动作。这个动作将以接触合成的形式表示,即若干个接触点和对应的运动方向。
为减轻随机种子对预测结果的影响,系统采用模型集成方法,使用 160 个不同随机种子生成多个预测结果。当两个预测结果之间的距离小于阈值时,将它们归为同一组,最终选择排名最高的组内平均位置最近的点及其对应力作为输出。
系统实施闭环反馈控制策略,在机器人执行动作后重新获取服装状态,将当前点云输入轨迹生成模型产生后续轨迹。这种设计使框架能够适应环境扰动和变化,确保操作的鲁棒性和精确性。
数据集与评估指标
实验在 Isaac Sim 仿真环境中进行,相比传统的 PyFleX 仿真环境,该环境能够提供更准确的服装内力仿真和更低的网格穿透发生率。为了能同时衡量多种衣物的折叠效果,研究团队采用三个关键评估指标:
性能对比分析
MetaFold 在多项指标上显著优于现有方法。
在未见过的 CLOTH3D [7] 数据集上,MetaFold 仍然达到 79%-97% 的成功率,证明了其强大的跨数据集泛化能力。
在语言指导的实验中,MetaFold 与基线比较了已见指令与未见指令的泛化能力。结果表明,MetaFold 在处理不同类型语言指令方面表现出色。除此之外,系统能够处理复杂的用户指令,如指定折叠顺序(「先左后右」)等,即使这些顺序在训练数据中未出现过,模型仍能正确理解和执行。
真实环境验证
研究团队使用 uFactory xArm6 机器人配备 xArm Gripper 和俯视 RealSense D435 相机进行真实环境实验。通过 SAM2 [8] 分割 RGB 图像生成服装掩码,结合深度数据提取真实服装点云。相比于 RGB 图片,点云模态有更小的模拟与实际差距 (sim-to-real gap),使其能够直接迁移到真实环境,而无需另外训练。
真实环境实验证实了 MetaFold 从仿真到现实的有效迁移能力,成功完成了多种服装的折叠任务,验证了框架的实用性和鲁棒性。
本研究成功地提出并验证了一个名为 MetaFold 的、用于机器人多类别衣物折叠的语言引导框架。其核心贡献在于:
参考文献
[1] Canberk, Alper, et al. "Cloth Funnels: Canonicalized-Alignment for Multi-Purpose Garment Manipulation." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.
[2] Ganapathi, Aditya, et al. "Learning dense visual correspondences in simulation to smooth and fold real fabrics." 2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021.
[3] Raval, Vedant, et al. "GPT-Fabric: Folding and Smoothing Fabric by Leveraging Pre-Trained Foundation Models." CoRR (2024).
[4] Zhou, Bingyang, et al. "Clothesnet: An information-rich 3d garment model repository with simulated clothes environment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[5] Yu, Xinyuan, et al. "Diffclothai: Differentiable cloth simulation with intersection-free frictional contact and differentiable two-way coupling with articulated rigid bodies." 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2023.
[6] Xu, Zhixuan, et al. "Manifoundation model for general-purpose robotic manipulation of contact synthesis with arbitrary objects and robots." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.
[7] Bertiche, Hugo, Meysam Madadi, and Sergio Escalera. "Cloth3d: clothed 3d humans." European Conference on Computer Vision. Cham: Springer International Publishing, 2020.
[8] Ravi, Nikhila, et al. "Sam 2: Segment anything in images and videos." arXiv preprint arXiv:2408.00714 (2024).
[9] Wu, Ruihai, et al. "Unigarmentmanip: A unified framework for category-level garment manipulation via dense visual correspondence." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
文章来自于“机器之心”,作者“陈浩楠”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda