AI资讯新闻榜单内容搜索-3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 3
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。

来自主题: AI技术研报
7359 点击    2025-11-03 09:50
5万亿帝国背后:AI是一场83年才能回本的“庞氏骗局”?

5万亿帝国背后:AI是一场83年才能回本的“庞氏骗局”?

5万亿帝国背后:AI是一场83年才能回本的“庞氏骗局”?

对冲基金Praetorian Capital创始人哈里斯·库珀曼(Harris Kupperman)向《每日经济新闻》记者(以下简称每经记者)表示,AI投资从回报上看说不通。整个AI行业需要1万亿美元的收入才能实现收支平衡,而目前行业的月收入仅略超10亿美元。也就是说,要收回目前计划的支出,需要约83年。

来自主题: AI资讯
7580 点击    2025-11-03 09:37
少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

直观经验却告诉我们,只要把同一物体的 “对应部分” 对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改动主干框架的前提下,把跨视角的语义一致性变成一种训练期先验注入到模型里,用低成本的方法去解决高价值的歧义问题,让少量视角也能得到清晰而完整的几何。

来自主题: AI技术研报
6348 点击    2025-11-02 10:03
刚刚,英伟达拟10亿美元砸向这家AI编码创企!Copilot 技术大佬带队、成立两年估值近千亿

刚刚,英伟达拟10亿美元砸向这家AI编码创企!Copilot 技术大佬带队、成立两年估值近千亿

刚刚,英伟达拟10亿美元砸向这家AI编码创企!Copilot 技术大佬带队、成立两年估值近千亿

10 月 30 日,据彭博社援引知情人士报道,英伟达计划向人工智能初创公司 Poolside 投资最高达 10 亿美元,这笔交易预计将使后者的估值翻四倍。消息人士称,Poolside 目前正在洽谈一轮新融资,拟以 120 亿美元的投前估值融资 20 亿美元。其中,英伟达计划出资至少 5 亿美元,若本轮融资顺利完成,英伟达的总投资额可能达到 10 亿美元。

来自主题: AI资讯
7549 点击    2025-11-01 09:50
微软AI新天团曝光!只有1位华人,「谷歌系」超1/3

微软AI新天团曝光!只有1位华人,「谷歌系」超1/3

微软AI新天团曝光!只有1位华人,「谷歌系」超1/3

微软AI CEO苏莱曼领导的17名核心高管阵容曝光:新增9名核心成员中有5位来自谷歌(包含DeepMind)系;8名老将中有2名来自苏莱曼共同创办的Inflection AI;17人中有7位是原微软的资深高管。新核心团队将聚焦AI产品落地、安全与隐私、增长与商业化。

来自主题: AI资讯
8051 点击    2025-11-01 09:46
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana

世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana

世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana

最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。

来自主题: AI资讯
6823 点击    2025-11-01 09:36
Sora天才辍学生归来!OpenAI组建3人神秘小队,豪赌超级人工智能

Sora天才辍学生归来!OpenAI组建3人神秘小队,豪赌超级人工智能

Sora天才辍学生归来!OpenAI组建3人神秘小队,豪赌超级人工智能

Sora背后的核心贡献者之一,这位00后的天才辍学生Will Depue,准备再次搞个大事情。刚刚,他宣布下一个目标是,超级人工智能ASI!在结束一段长期休息后,Will Depue宣布他再次回到OpenAI。

来自主题: AI资讯
7585 点击    2025-10-31 15:47
让 AI 开口「像人」:最难的不是智能,是「嗓音」

让 AI 开口「像人」:最难的不是智能,是「嗓音」

让 AI 开口「像人」:最难的不是智能,是「嗓音」

Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。

来自主题: AI资讯
7747 点击    2025-10-31 15:35
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。

来自主题: AI技术研报
5208 点击    2025-10-31 14:49
世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。

来自主题: AI技术研报
5918 点击    2025-10-31 10:27