首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。
《读佳》获悉,快手已上线名为Poify的AI业务,不同于可灵AI,据悉,Poify更加专注于AI作图领域,除了支持常规的文生图和图生图的功能外,最重要的是涉足电商方面的AI作图。
4 月的生成式 AI 赛道,又一次用真实收入把“技术奇迹”写进了现金流。
从 2023 年的 Sora 到如今的可灵、Vidu、通义万相,AIGC 生成式技术的魔法席卷全球,打开了 AI 应用落地的大门。
可灵的下一步:优先保证模型效果、聚焦专业生产者做渗透。,快手在今日成立了可灵 AI 事业部。该事业部下设可灵 AI 产品部、运营部和技术部,负责可灵、可图等系列大模型业务,快手高级副总裁盖坤担任可灵 AI 事业部负责人,继续兼任社区科学线负责人。
最近终于有时间来测试一下最新版的据说超级强的可灵2.0,想着来都来了不如顺便就把Veo 2也一起测了。前几天可灵2.0在北京有发布会,我没有去,主要是比较忙,最主要是可灵也没邀请我,不过还好,Veo 2也没邀请我,让我可以非常好地保持住自己的客观。
谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
“史上最强视觉生成模型”,现在属于快手。一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;
2025年4月中旬,快手和字节这两个老对手,在AI视频生成领域,再次狭路相逢。先是4月14日,字节跳动的视频生成基础模型Seaweed,低调上线了官网,还释出了技术报告。