
视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功,浙大悉尼科技大学出品 | ICLR 2025
视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功,浙大悉尼科技大学出品 | ICLR 2025如何让你的模型能感知到视频的粒度,随着你的心思想编辑哪就编辑哪呢?
如何让你的模型能感知到视频的粒度,随着你的心思想编辑哪就编辑哪呢?
如何用一小时完成3D游戏开发?「vibe coding」(氛围编程)让3D游戏制作变得轻松。无需编写代码,借助AI工具就能打造游戏,甚至还能盈利!从骑马大战飞龙的奇幻冒险,到水上摩托艇的惊险竞速,再到多人海盗船的探索之旅,Vide Coding的热潮正在席卷网络。
224张GPU,训出开源视频生成新SOTA!Open-Sora 2.0正式发布。 11B参数规模,性能可直追HunyuanVideo和Step-Video(30B)。
就在刚刚,腾讯版Sora补齐了又一重要拼图——图生视频。
经常有群友问我有没有什么把视频修复的工具。而我过去最推荐的,也是我心中目前最牛逼的视频修复工具,自然就是TopazVideoAI了。但,斗转星移,日月如梭,现在已经2025年了。我们在进化,而Topaz他们家,自然也再进化,前两天他们家又整了个新活,搞了个叫Starlight的新东西。
数字化时代,视频内容的创作与编辑需求日益增长。从电影制作到社交媒体,高质量的视频编辑技术成为了行业的核心竞争力之一。然而,视频重打光(video relighting)—— 即对视频中的光照条件进行调整和优化,一直是这一领域的技术瓶颈。传统的视频重打光方法面临着高昂的训练成本和数据稀缺的双重挑战,导致其难以广泛应用。
Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。
刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。
在当下的技术领域中,人像视频生成(Human-Video-Animation)作为一个备受瞩目的研究方向,正不断取得新的进展。人像视频生成 (Human-Video-Animation) 是指从某人物的视频中获取肢体动作和面部表情序列,来驱动其他人物个体的参考图像来生成视频。
7B大小的视频理解模型中的新SOTA,来了!