
12家创业公司+4家大厂全景图:谁会成为中国版Sora?
12家创业公司+4家大厂全景图:谁会成为中国版Sora?近期,DiT(Diffusion Transformer)论文的作者谢赛宁在朋友圈分享了他对 Sora 的看法,其中核心资源的排序是——人才第一、数据第二、算力第三,其他都没有什么是不可替代的。
近期,DiT(Diffusion Transformer)论文的作者谢赛宁在朋友圈分享了他对 Sora 的看法,其中核心资源的排序是——人才第一、数据第二、算力第三,其他都没有什么是不可替代的。
随着大语言模型(LLMs)在近年来取得显著进展,它们的能力日益增强,进而引发了一个关键的问题:如何确保他们与人类价值观对齐,从而避免潜在的社会负面影响?
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。
Stable Diffusion 3,它终于来了!
今日份炸弹又来了!深夜,Stability AI放出了Stable Diffusion 3.0,它采用了和爆火Sora同样的DiT架构,画面质量、文字渲染、复杂对象理解大提升,Midjourney、DALL-E 3都显得黯然失色了。
Sora表现强大的3点关键原因,以及我们作为普通人,应该如何面对新技术带来的冲击?
单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技术。它旨在从单张图片中重建出目标人的三维化身 (3D Avatar)
今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的一篇关于零阶优化深度学习框架的文章 ,本文被 ICLR 2024 接收,代码已开源。
谷歌推出Gemini大规模商业化,将其聊天机器人Bard改名为Gemini,并推出Gemini的Android版App。谷歌还将Gemini的能力加入iOS的Google App中,并免费向公众开放。Gemini还可替代原来的Google Assistant成为手机的默认语言助手。
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模方法。