
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?
为什么语言模型很成功,视频模型还是那么弱?
谷歌旗舰视频模型Veo 3上线不到一个月,各种玩法层出不穷。 这不,玩法再升级,只需添加一个提示词“360°”就能解锁3D世界!
这500天里,AI视频模型,从寥寥星火,也到如今满眼璀璨星河。这500天里,天翻地覆,绣口一吐,就是近半个盛唐。 从孤舟一叶,到如今千帆竞渡如潮。
大家好,我是袋鼠帝 还记得前两天Google IO大会上他们发布的最新视频模型Veo3吗 它可以根据提示自动添加环境音效、背景噪声、音乐和对话,并与画面完美同步 而且生成的视频相当炸裂,已经让我有点分不清虚幻与现实了 比如这位推特大神(Hashem Al-Ghaili)用Veo3制作的视频,相当🐂🍺
这里介绍一下Vidu,Vidu是由生数科技联合清华大学正式发布的中国首个长时长、高一致性、高动态性视频大模型。Vidu在语义理解、推理速度、动态幅度等方面具备领先优势,并上线了全球首个“多主体参考”功能,突破视频模型一致性生成难题,开启了视觉上下文时代。最近上线了 Vidu Q1 的高质量视频大模型,不仅视频效果质感更高,而且性价比很不错。
在GitHub狂揽1w+星标的通义万相Wan2.1,又双叒上新了!
世界模型领域最新进展,要比拼“世界生成”了。
马斯克也要打造自己的视频生成模型了??就在最近,xAI收购了一家视频生成初创公司,这家仅4个人的公司过去两年打造出了Hotshot这款产品。Hotshot至今已有3款视频生成基础模型。被收购之后,目前已停止推出新的视频创作功能,而且用户过往创作的视频截止下载时间为3月30日。