
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
今日,Dyna Robotics 宣布完成数千万美元的种子轮融资。本轮融资由硅谷风投 CRV 和 First Round Capital 领投,真格基金参与投资。Dyna Robotics 致力于为各类企业打造AI驱动的机器人。公司机器人通过「一次专注一个任务」的方式,从折叠到备餐等各类任务入手,让其具身智能基础模型能在真实生产场景中以高性价比不断学习和成长,最终迈向通用型具身智能的目标。
谷歌联合创始人、全球第七富豪拉里・佩奇 (Larry Page) 已经成立了一个 AI 创业公司。据外媒 The Information 本周四报道,拉里・佩奇成立了名为 Dynatomics 的创业公司,旨在用人工智能颠覆制造业。
推理模型在复杂任务上表现惊艳,缺点是低下的token效率。UCSD清华等机构的研究人员发现,问题根源在于模型的「自我怀疑」!研究团队提出了Dynasor-CoT,一种无需训练、侵入性小且简单的方法。
过去一年,3D 生成技术迎来爆发式增长。在大场景生成领域,涌现出一批 “静态大场景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。
在当下的技术领域中,人像视频生成(Human-Video-Animation)作为一个备受瞩目的研究方向,正不断取得新的进展。人像视频生成 (Human-Video-Animation) 是指从某人物的视频中获取肢体动作和面部表情序列,来驱动其他人物个体的参考图像来生成视频。
超越ControlNet++,让文生图更可控的新框架来了!
360AI陷盗图风波,周鸿祎沉默坐实侵权?
人类和 AI 机器人比赛互扇嘴巴子,谁会先扛不住?在扇耳光大赛上,人类老哥力从地起,扭腰转胯,一招横扫千军巴掌就扇到了机器人的脸上,并把它打飞了出去,差点直接关机。