Feed-Forward 3D综述:三维视觉如何「一步到位」
Feed-Forward 3D综述:三维视觉如何「一步到位」在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。
在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。
每周我们都会和不少AI公司创业者交流,体验和评测新的AI产品,以各种方式去研究这些项目。
当医生按下Enter键,AI就能决定人的生死!美国华盛顿大学,一项名为「AI代理人」的研究,试图让算法预测昏迷患者的生死意愿。支持者说这是医疗新纪元,反对者担心它只是复制偏见的机器。当AI学会理解生命,人类的怜悯、犹豫与责任,会不会被一串数据取代?
Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。
国内首个利用世界模型生成数据实现真机泛化的端到端VLA具身基础模型GigaBrain-0重磅发布。
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。
Gambo 称自己为 “世界上第一个 Game Vibe Coding Agent”。用户只需描述游戏类型、主题或风格,AI 就会自动生成场景、角色、交互与音效,并把这些内容编织成一个可玩的世界。
几个月前,和 OpenAI“星际之门”(Stargate)项目的合作,让 Crusoe 这家公司一夜成名。据创始人介绍,公司的名字灵感来源于小说《鲁滨逊漂流记》(Robinson Crusoe),正像鲁滨逊在荒岛上竭力利用全部资源来生存一样,这家公司也试图最大化利用废弃或闲置能源,并通过算力来释放其价值。
复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。
AutoGame 创始人张昊阳离开腾讯后,带领团队打造的 AI 游戏《麦琪的花园》在 Steam 零推广登上新品榜 Top50,一个月积累超 5000 愿望单。通过自研 GameGPT 多智能体框架和大模型架构,他们让普通玩家能“一句话生成 NPC、任务与道具”,将 UGC 创作门槛降至短视频级别,把传统“金字塔型”内容生态变为“十字型”社交表达平台。