
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!视频生成领域,又出现一位重量级开源选手。
视频生成领域,又出现一位重量级开源选手。
近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM,这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。
当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。
奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。
终于,谷歌新一代视频生成大模型 Veo2 把 Sora 给秒了:「更懂人间烟火」、「懂电影拍摄技巧」、「分辨率高达 4K 」……
2024年最后一个月,国产大模型落地应用突然加速。尤其视频生成模型,就像密集射出子弹后的枪管,热得发烫。
近期,巨人网络发布了“千影QianYing”有声游戏生成大模型,包含游戏视频生成大模型YingGame、视频配音大模型YingSound,实现了有声可交互游戏视频生成的新突破。
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
字节的AI爆款有戏吗? 今年最火的两款全球AI产品,当属视频生成大模型产品Sora和音乐生成大模型产品Suno。