少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了
少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了直观经验却告诉我们,只要把同一物体的 “对应部分” 对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改动主干框架的前提下,把跨视角的语义一致性变成一种训练期先验注入到模型里,用低成本的方法去解决高价值的歧义问题,让少量视角也能得到清晰而完整的几何。
直观经验却告诉我们,只要把同一物体的 “对应部分” 对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改动主干框架的前提下,把跨视角的语义一致性变成一种训练期先验注入到模型里,用低成本的方法去解决高价值的歧义问题,让少量视角也能得到清晰而完整的几何。
近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计,无缝融合了 AR 模型的高性能与扩散模型的并行推理优势,能以极低成本将任意 AR 模型「改造」为并行解码模型。
10 月 30 日,据彭博社援引知情人士报道,英伟达计划向人工智能初创公司 Poolside 投资最高达 10 亿美元,这笔交易预计将使后者的估值翻四倍。消息人士称,Poolside 目前正在洽谈一轮新融资,拟以 120 亿美元的投前估值融资 20 亿美元。其中,英伟达计划出资至少 5 亿美元,若本轮融资顺利完成,英伟达的总投资额可能达到 10 亿美元。
微软AI CEO苏莱曼领导的17名核心高管阵容曝光:新增9名核心成员中有5位来自谷歌(包含DeepMind)系;8名老将中有2名来自苏莱曼共同创办的Inflection AI;17人中有7位是原微软的资深高管。新核心团队将聚焦AI产品落地、安全与隐私、增长与商业化。
最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。
论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计
在NeurIPS 2025论文中,来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST(Vision-centric Token Compression in LLM),为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是,这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。
最大的时代红利,属于今年四季度发布的中美两大明星产品,OpenAI 的 Sora 2 与阿里的 Wan2.5-Preview。其中,Sora 2 的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效,用户为了获得一个入场券除了需要购买 GPT 的会员之外,甚至还在二手平台再花几十美金购买邀请码。更绝的是,它把自己变成了一个 AI 版抖音,
Sora背后的核心贡献者之一,这位00后的天才辍学生Will Depue,准备再次搞个大事情。刚刚,他宣布下一个目标是,超级人工智能ASI!在结束一段长期休息后,Will Depue宣布他再次回到OpenAI。
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 如果Agent能操作命令行,就有了与整个计算机系统交互的能力。 也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。 这种产品终于有雏形了