全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月
7974点击    2025-10-11 12:06

全球首个真实世界具身多模态数据集,它来了!


刚刚,它石智航发布全球首个大规模真实世界具身VLTA(Vision-Language-Tactile-Action)多模态数据集World In Your Hands(WIYH)


全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月


WIYH是行业内首个以Human-centric为中心的、整合了视觉、语言、触觉和动作多模态数据的大型数据集,将于2025年12月面向行业共享开放。


就目前曝光的数据来看,其包含超过10万条以上的真实人类操作视频,覆盖了40余种任务类型、100多种人类技能,使用13种以上传感器,涵盖520多种物体。


其中,每条数据都包含6种标注,对应多模态数据的同步标记。


而这种Human-centric为中心的数据技术范式路线,也正在成为行业共识。


其中最受关注的莫过于马斯克治下的特斯拉,特斯拉已经开启了数据采集员工,对外剧透以此推进擎天柱机器人发展和量产。


而从创立之初就明确该路线的它石智航,率先用数据集给出了答卷。


这个维度上来说,这家这家成立仅半年便拿下2.42亿美元融资的中国具身智能初创公司,在这条技术路线上,比特斯拉至少领先6个月。


全球首个真实世界具身多模态数据集


它石智航这次发布的WIYH数据集有两大突破:一是以真实场景为核心,覆盖多种操作任务;二是以大规模多模态数据为支撑,融合视觉、语言、动作、触觉等信息,为机器人学习复杂动作和跨场景泛化提供了坚实的数据基础。


在它石智航发布的Human-Centric第一视角数采视频中可以看到,与以往实验室或数据采集工厂中静态、单调的采集环境不同,WIYH基于多个行业的真实工作场景和工作人员,采集了涵盖酒店洗衣、超市装配等多种具身场景的人类标准操作流程数据。


例如,超市中真实的拿取物品场景:工作人员从货架上挑选商品→手部伸向目标物→握住物品并抬起→调整握姿 →放入购物篮或推车→完成取放动作。

全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月


又如,酒店中的真实叠衣服场景:工作人员取出毛巾→摊平→对折或卷叠→对齐边角→放入衣柜或收纳箱→完成叠放动作。


全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月

值得一提的是,这些数据采集视频也展示了WIYH的多层标注,包括语义标注(Mask)、深度信息(Depth)、交互物体的可供性(Affordance)、语言推理(Language)、手部与末端动作轨迹(Tactile/Action)等。


这些标注实现了动作、触觉、语言与视觉的多维同步,为研究具身智能提供了丰富、可泛化的数据基础。


由此,WIYH将视觉、语言、动作和触觉等多模态信息同步对齐,呈现完整的操作过程,不仅解决了“数据量少、质量低、成本高”的问题,更确保了数据源自真实世界。


总体来看,WIYH 具有以下四个特点:


  • 真实:数据来源于真实的具身操作任务,贴近模型实际应用场景。
  • 丰富:覆盖多个行业和操作技能,有助于模型迁移和泛化,提升数据复用价值。
  • 全面:包括视觉、语言、触觉和动作等多模态标注,便于多模态预训练和对齐。
  • 海量:数据规模大,能够支撑通用具身智能模型的训练和应用。


基于上面这些核心特征,WIYH数据集在模态完整性、标注精度和采集环境上都有明显优势。


首先,WIYH通过自研采集套件同步获取视觉(RGB)、力触觉和动作轨迹数据,保证多源信息在时间和空间上的精确对齐。


其次,WIYH依托云端基础大模型完成高精度标注,覆盖 2D 语义、场景深度、操作任务分解、交互物体的可供性(Affordance)以及手部和末端动作轨迹等多粒度标签,为具身基座模型提供全面、多维的训练信号。


最后,WIYH直接在真实生活操作场景中采集标准操作流程数据,相比传统高成本自建工厂,既提升了数据的真实性和多样性,也显著降低了采集成本。


对于此次WIYH的发布,它石智航首席科学家丁文超博士表示:


它石WIYH数据集的发布,标志着行业首次将视觉、语言、触觉与动作多模态数据在真实世界大规模跨行业跨任务采集,并为未来实现具身基座模型的规模定律 (Scaling Law) 奠定了基础。


以人为中心的数据范式


众所周知,要让机器人掌握丰富的人类动作表现,并在多样化场景中具备迁移和泛化能力,高质量数据至关重要。


通常,用于具身智能训练的数据可分为三类:互联网视频数据仿真数据真实数据


不过,这几类数据各存在相应的局限:互联网数据质量参差不齐,且缺乏动作信息;仿真数据虽然可控,但真实性有限,场景泛化能力不足,而且还要解决sim2real gap的问题;真机数据采集成本高,高质量数据稀缺。


由此可见,对于人形机器人而言,迈向“具身智能”的核心挑战并非算法本身,而在于如何获取大规模、真实且具泛化能力的训练数据。


在各类数据路径之间进行权衡——也成为了各实验室和团队之间的关键博弈所在。


例如,以Figure AI为代表的VLA路径主要依赖成本低廉的互联网数据进行训练,而像Google Robotics这样的仿真路线则结合真实操作数据与仿真扩充数据,用于训练通用抓取和搬运任务。


不过,正如具身智能领域的明星公司Physical Intelligence联合创始人Sergey Levine前段时间指出的,尽管真实数据难以获取,但它的重要性不可被视频或仿真等替代,该公司也一直坚持以真实数据为核心的路线。


除了Physical Intelligence,特斯拉在训练Optimus机器人时同样依赖真实数据:工作人员在执行各类任务时身穿动作捕捉服,采集到的人类运动轨迹直接用于构建机器人运动策略,其高薪招聘数据采集员的做法也早已广为人知。


全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月


然而,这些数据大多仅在公司内部使用,并未开源,限制了行业的进一步发展。


在开源数据方面,像Ego4DSounds这样的数据集虽然提供了大量第一人称的操作数据,但存在明显局限:一方面缺乏触觉与语言等多模态标注,另一方面主要聚焦日常生活场景,缺少真实工作场景中的动作轨迹数据。


此外,相较于谷歌Open-X Embodiment、智元AgiBot Digital World等开放数据集,它石智航的WIYH更强调以人为中心,而非以机器人为中心。


对于这一点,它石智航首席科学家丁文超曾在与量子位的对谈中表示:


按照第一性原理,要实现接近人类水平的具身智能,机器人必须获得类似人类的认知与行动能力,而数据也应来源于人类自身。这正是WIYH与传统机器人中心数据采集方式的核心区别:后者常通过 XR眼镜或手柄遥控机器人动作,效率低且可能生成低于人类水平的数据,相当于把人类动作“套”在机器人上,甚至导致技术降级。相比之下,我们以人为本源采集真实操作数据,获取多模态信息,才能真正推动具身智能接近人类水平。


基于此,WIYH的发布一方面填补了跨行业、真实工作场景的数据空白,使面向真实世界的具身AI World Engine预训练成为可能。


另一方面它也奠定了它石智航以人为本源的Human-Centric范式,确保数据获取不依赖于机器人遥控或仿真重建,而是真实、可扩展且可泛化的人类操作经验,为具身智能达到人类水平的认知与行动能力提供了坚实基础。


出品方何方神圣?


最后,再次简单介绍一下它石智航。


它石智航(TARS)是一家成立于2025年2月的具身智能创业公司,由陈亦伦和李震宇联合创办,核心团队还包括丁文超(联合创始人兼首席科学家)、陈同庆(联合创始人兼首席架构师)和Vincent(联合创始人兼首席战略官)。


CEO陈亦伦博士曾任大疆机器视觉总工程师、华为自动驾驶CTO及清华大学智能产业研究院智能机器人方向首席科学家,是中国自动驾驶领域的产业领军人物。


董事长李震宇曾获华为最高荣誉嘉奖,后担任百度集团资深副总裁,长期掌管百度阿波罗自动驾驶事业群。


首席科学家丁文超入选华为“天才少年”计划,从0到1主导华为ADS智驾端到端决策网络。


联合创始人陈同庆为清华大学博士、国家重大专项首席科学家及空间感知首席技术专家,深耕工业制造、AI、自动驾驶和机器人领域,多款产品实现成功商用。


首席战略官Vincent,多模态学习领域专家,持续创业者,带领多家创业公司实现跨越式发展。


它石智航以Human-Centric为核心,此次发布的WIYH数据集与此前推出的AI World Engine世界模型进一步地构建了数据—模型闭环,实现了真实世界的具身数据采集与空间感知能力。


此外,它石智航采用全栈开发路线,覆盖算法、硬件本体和核心应用,旨在解决柔性物体操作等复杂物理场景问题,实现工程化、产品化和量产商用。


2025年3月26日,它石智航完成了1.2亿美元天使轮融资,创中国具身智能领域天使轮融资新高。7月8日,其又完成了1.22亿美元天使+轮融资。


而现在,这家成立不到一年的明星具身公司,给出了数据范式上的引领性答卷。


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站