
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!视频生成领域,又出现一位重量级开源选手。
视频生成领域,又出现一位重量级开源选手。
新国产AI视频生成模型横空出世,一夜间全网刷屏。Magi-1,首个实现顶级画质输出的自回归视频生成模型,模型权重、代码100%开源。整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。
想象一下,耗费动画大师宫崎骏数十年心血、一帧一画精雕细琢的艺术风格——比如《起风了》中耗时一年多的四秒人群场景,或是《幽灵公主》里那个生物钻地镜头背后一年零七个月的 5300 帧手绘,如今,在GPT-4o手中,似乎变得“唾手可得”。
超越扩散模型!自回归范式在图像生成领域再次被验证——
何恺明入职MIT副教授后,首次带队的新作来了!
DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门,成为了Hacker News等许多科技媒体的头版头条。
纵观生成式AI领域中的两个主导者:自回归和扩散模型。 一个专攻文本等离散数据,一个长于图像等连续数据。 如果,我们让后者来挑战前者的主场,它能行吗?
最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。
伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型