老黄的Cosmos 3刚发一天,就被一家中国公司反超了
老黄的Cosmos 3刚发一天,就被一家中国公司反超了6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。
搜索
6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。
刚刚过去的GTC Taipei上,最备受关注的,莫过于Cosmos 3。
2025 年秋的具身智能赛道正被巨头动态点燃:特斯拉上海超级工厂宣布 Optimus 2.0 量产下线,同步开放开发者平台提供运动控制与环境感知 SDK,试图通过生态共建破解数据孤岛难题;英伟达则在 SIGGRAPH 大会抛出物理 AI 全栈方案,其 Omniverse 平台结合 Cosmos 世界模型可生成高质量合成数据,直指真机数据短缺痛点。
这次英伟达可谓是“全家桶”式发布:不仅有让机器人拥有”物理直觉”的Newton引擎,还有赋予机器人人类推理能力的Isaac GR00T N1.6基础模型,以及能够生成海量训练数据的Cosmos世界基础模型,直接瞄准了机器人研发中最头疼的几个问题。
老黄看好机器人,还真不是嘴上说说! 这不,就在正在举办的SIGGRAPH(计算机图形学)大会上,英伟达为机器人带来了全新升级的Cosmos世界模型。
2018 年,LSTM 之父 Jürgen Schmidhuber 在论文中( Recurrent world models facilitate policy evolution )推广了世界模型(world model)的概念,这是一种神经网络,它能够根据智能体过去的观察与动作,预测环境的未来状态。
前有美图的出海,验证了“颜值经济”的普适性,也悄然改变着大众对于修图工具类产品的消费认知。
在基于物理世界的真实场景进行视觉问答时,有可能出现参考选项中没有最佳答案的情况,比如以下例子:
Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1,可以根据多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟,使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境,用于训练机器人和自动驾驶车辆。
2025年1月7日上午,在CES大会开幕式上,身穿黑皮衣的英伟达创始人黄仁勋,用一番激情演讲,拉开了新一年AI的大幕——英伟达不仅推出了新一代基于Blackwell架构的GPU RTX 5090,还发布了开源可商用的世界基础模型Cosmos。两项产品,为AI应用的变革提供了全新的“基础设施”。