本文作者来自:南京大学、香港大学、中南大学、地平线、中国科学院计算所、上海交通大学、慕尼黑工业大学、清华大学。
当下,随着机器人与人工智能技术的飞速进展,“具身智能”(Embodied Intelligence)已成为业界与学界共同关注的核心课题。与纯感知或生成任务不同,具身智能要求智能体在复杂环境中自主感知、预测并执行动作,才能真正迈向通用智能(AGI)。而要实现这一宏大目标,物理模拟器与世界模型的深度融合被认为是最具潜力的路径:前者通过高度可控的虚拟环境,为算法训练提供安全、高效的多场景试错土壤;后者则模拟了从感知到决策的 “脑内演算” 过程,使智能体能够在动作之前,先在内部进行环境预测与策略规划。
这篇由南京大学、香港大学等机构学者撰写的综述论文 —— A Survey: Learning Embodied Intelligence from Physical Simulators and World Models,使用 25 张图、6 张表格、超 400 篇参考系统地梳理了两大技术如何协同推动机器人从 “会做” 向 “会想” 演进的全貌。
论文摘要
对通用人工智能(AGI)的追求使具身智能成为机器人研究的前沿课题。具身智能关注的是能够在物理世界中感知、推理并行动的智能体。要实现鲁棒的具身智能,不仅需要先进的感知与控制能力,还需具备将抽象认知扎根于现实交互中的能力。
在这一过程中,两项基础技术 —— 物理模拟器与世界模型 —— 已成为关键推动力量。物理模拟器为训练与评估机器人智能体提供了可控、高保真度的环境,使复杂行为的开发变得安全而高效。相比之下,世界模型为机器人赋予了对环境的内部表示能力,从而使其能够进行预测性规划和超越直接感知的自适应决策。
本文系统回顾了近年来通过物理模拟器与世界模型融合学习具身智能的研究进展。我们分析了这两者在提升智能体自主性、适应性与泛化能力方面的互补作用,并探讨了外部模拟与内部建模之间的协同关系,如何推动从模拟训练走向真实部署的跨越。通过整合当前的研究成果与开放问题,本文旨在为构建更强大、更具泛化能力的具身智能系统提供全面的视角。我们还维护了一个持续更新的文献与开源项目仓库,地址为:https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。
主要贡献:
研究内容与结构一览
1、智能机器人五级能力分级(IR-L0 ~ IR-L4)
2、机器人核心技术回顾
3、物理模拟器横评
回顾主流模拟平台(Webots、Gazebo、MuJoCo、Isaac Gym/Sim)的物理引擎精度、渲染质量及传感器组件支持;
对比其在异构硬件与大规模并行训练中的表现差异,并指出未来优化方向。
4、世界模型架构与应用
代表性结构:从预测网络、生成式模型到多任务复合型 “动态+奖励” 模型;
应用场景:自动驾驶中的轨迹预测、关节机器人中的仿真 — 现实闭环校准。
智能机器人分级标准
仿真器仿真能力对比
仿真器渲染能力对比
自动驾驶领域的世界模型代表性工作汇总
机器人领域的世界模型代表性工作汇总
文章来自公众号“机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md