
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1在基于物理世界的真实场景进行视觉问答时,有可能出现参考选项中没有最佳答案的情况,比如以下例子:
在基于物理世界的真实场景进行视觉问答时,有可能出现参考选项中没有最佳答案的情况,比如以下例子:
Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1,可以根据多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟,使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境,用于训练机器人和自动驾驶车辆。
2025年1月7日上午,在CES大会开幕式上,身穿黑皮衣的英伟达创始人黄仁勋,用一番激情演讲,拉开了新一年AI的大幕——英伟达不仅推出了新一代基于Blackwell架构的GPU RTX 5090,还发布了开源可商用的世界基础模型Cosmos。两项产品,为AI应用的变革提供了全新的“基础设施”。
AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。
昨天,英伟达官宣了首个「世界基础模型」Cosmos。从此,物理AI数据不够的问题将有望解决!而就在刚刚,75页技术报告火热出炉,GitHub项目更是冲破了2k星。
Sora、Genie等模型会都用到的Tokenizer,微软下手了—— 开源了一套全能的Video Tokenizer,名为VidTok。
近日,人形机器人公司1X公布了世界模型挑战赛的二阶段:Sampling。一同登场的还有合作伙伴英伟达新发布的Cosmos视频分词器,超高质量和压缩率助力构建虚拟世界。
tokenizer对于图像、视频生成的重要性值得重视。
为了这个视频模型,英伟达每天正在疯狂地爬取相当于 80 年时长的视频数据。
英伟达版Sora曝光——