Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径
5934点击    2025-06-17 17:23

近期,人工智能领域对“具身智能”的讨论持续升温——如何让AI不仅能“理解”语言,还能用“手”去感知世界、操作环境、完成任务?相比语言模型的迅猛发展,真正通向Agent的下一步,需要AI具备跨模态感知、动作控制与现实泛化能力。具身智能让AI不仅能“思考”,更能“感知”“行动”。


Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径

图片来源:https://haozhi.io/rotateit/


Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径

图片来源:https://penspin.github.io/


由来自加州大学伯克利分校(UC Berkeley)、加州大学圣地亚哥分校(UC San Diego)(卡内基梅隆大学(CMU)、Meta AI(FAIR)等多所顶尖研究机构的学者和工程师共同组成的具身智能研究团队,近年来围绕多模态融合、灵巧手控制和现实部署问题,开展了一系列具有里程碑意义的合作研究。


团队成员包括 Jitendra Malik、Yi Ma、Xiaolong Wang、Roberto Calandra 等知名学者,在机器学习与机器人交叉方向发表多篇顶会论文(CoRL, RSS, ICRA, NeurIPS 等)。


Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径


其中 Haozhi Qi 是加州大学伯克利分校(UC Berkeley)电气工程与计算机科学系的博士生,师从计算机视觉领域的奠基人 Jitendra Malik 教授和稀疏表示理论的提出者 Yi Ma 教授。他的研究聚焦于机器人学习、灵巧操作、多模态感知与强化学习,致力于构建能够在现实世界中进行精细操控的具身智能系统。


在博士期间,Haozhi Qi 完成了多项具有影响力的研究工作:


  • RotateIt(CoRL 2023):提出了一个融合视觉、触觉和本体感知的多模态策略系统,实现了机器人手指尖对任意物体在三维空间中的连续旋转控制,标志着通用物体操控能力的重要突破。
  • PenSpin(CoRL 2024):首次在真实环境中实现了机器人手指间的笔状物体连续旋转,克服了高动态、非结构化任务中的数据稀缺问题,展示了指间 gaiting 自主学习能力。
  • NeuralFeels(Science Robotics 2024):开发了一个结合视觉和触觉感知的系统,使机器人能够在操作过程中实时估计物体的形状和姿态,提升了在复杂环境中的操控精度。


此外,他还担任了多个顶级会议(如 NeurIPS、ICRA、CoRL)的Seminar组织者,积极推动机器人灵巧操作和多模态感知领域的发展,为构建能够自主感知、决策和执行任务的 AI Agent 提供了新的方向。


在本次学术讲座中(美西时间6.19号晚上7PM/北京时间6.20号早上10AM),Haozhi Qi将特别聚焦发表于 CoRL 顶会的代表性工作——PenSpin 与 RotateIt。这两项研究分别从高难度的动态精细操控任务与通用多物体操作能力出发,探索了如何从感知、表示、控制三个层面构建具身AI系统。


这不仅是全球首次在真实环境中实现笔状物体的连续旋转,也是当前唯一能在三轴方向上对任意物体实现稳定、可泛化控制的机器人系统。团队通过策略迁移、感知融合和强化学习的协同设计,逐步走出了一个清晰的方向——将传统机器人方法、深度强化学习与大模型的推理能力结合,构建真正“能动”的智能体。


Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径

PenSpin - 世界首个AI旋转笔的系统


旋转笔不仅是挑战人类精细操作的极限,也是许多实际工具(如螺丝刀)使用前必须掌握的能力。


Learning to Spin Pens工作中,团队聚焦于机器人手指间“旋转笔”这一典型人类灵巧技能。该任务具有动态性强、接触变化频繁、控制频率高等特点。


技术亮点包括:


  • Sim-to-Real 自监督迁移:通过仿真轨迹生成 + 少量真实世界数据 (<50 条),在真实环境中实现持续多圈旋转;
  • 动作先验建模:使用高保真轨迹构造真实环境“教学数据”,解决难以采集人类示范的问题;
  • Proprioception-only sensorimotor policy:设计仅依赖机器人自身状态感知的策略,有效克服视觉/触觉 sim-to-real gap。


Z Tech | 对话 UCB、CMU、Meta AI具身智能研究团队:用AI“手”感世界——从旋转笔尖到具身智能的进化路径

RotateIt - 通用物体在手中旋转的新突破


传统的灵巧手操作往往局限于少量规则形状,而 RotateIt 实现了对任意物体在三轴方向上的连续旋转控制,并且首次整合了视觉+触觉+本体感知的多模态输入。


如果说PenSpin展示了对某类形状的精细操作能力,那么RotateIt更进一步,解决的是“对任意物体进行任意轴连续旋转”的通用操控能力。


关键贡献包括:


  • 三模态融合策略学习:首次整合视觉、触觉、本体感知(proprioception)并通过 Transformer 建模时序依赖;
  • 形状/物理属性隐变量推理:通过感知历史序列,在部署时动态推理对象的结构属性,实现“见物识物”;
  • Sim-to-Real泛化能力评估:在多个挑战性真实物体上测试,展现显著鲁棒性与任务完成度。


RotateIt 的研究指向一个更长期的目标:将大语言模型的推理能力与具身物理世界结合,构建真正“自我理解、自我决策、自我执行”的AI Agent。


文章来自于“Z Potentials”,作者“Z Potentials”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md