
360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!
360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!现有的可控Diffusion Transformer方法,虽然在推进文本到图像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。
现有的可控Diffusion Transformer方法,虽然在推进文本到图像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。
一张图、一句提示词,万物都能乱入你随手拍的视频。
针对视频生成中的运动一致性难题,Meta GenAI团队提出了一个全新框架VideoJAM。VideoJAM基于主流的DiT路线,但和Sora等纯DiT模型相比,动态效果直接拉满:
苹果最新论文揭露,或许它们看起来不会像机器人,或许它们将无处不在!苹果放出来一个台灯机器人以做展示,火遍reddit、X等平台。
现在,要想往视频里毫无违和感地添加任何东西,只需一张图就够了。
自Perplexity官宣引入广告后,AI搜索再次成为关注焦点。而我们国内创业团队这边,也传来了新消息——Hika AI,一个仅由5人打造的AI搜索,上线不久竟能和国外当红顶流同台竞技了?!
由无问芯穹与上海交通大学联合研究团队提出的视频生成软硬一体加速器,首次实现通过差分近似和自适应数据流解决 VDiT 生成速度缓慢瓶颈,推理速度相比 A100 提升高达 16.44 倍。
AI训练即将进入语料比拼阶段 Reddit 在过去的 2024 年算得上是容光焕发。这家创立了近 20 年的社交平台,去年 3 月在纽交所完成上市,并在上市后的第三季度实现首次盈利,到目前股票已涨到上市首日开盘价的 350% 左右。
Reddit 作为一个充满活力的全球社区平台,里面有非常丰富的兴趣小组和只有想不到没有找不到的话题,类似国内的百度贴吧、豆瓣,我们不仅可以从中发现灵感、验证想法,还可以找到对应的客户,非常适合验证创业想法。
近些年来,以 Stable Diffusion 为代表的扩散模型为文生图(T2I)任务树立了新的标准,PixArt,LUMINA,Hunyuan-DiT 以及 Sana 等工作进一步提高了图像生成的质量和效率。然而,目前的这些文生图(T2I)扩散模型受限于模型尺寸和运行时间,仍然很难直接部署到移动设备上。