
Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)
Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)霸榜数天的神秘文生图模型 Mogao,什么来头?
霸榜数天的神秘文生图模型 Mogao,什么来头?
刚出道的 HiDream-I1,拿下了 Hugging Face 趋势榜第二(图像榜第一),Artificial Analysis 文生图第二,排在Midjourney、Google Imagen、FLUX、SDXL 之前,仅次于 GPT-4o 。
自从在一支烟花群里和朋友测试起 Google 这个新工具,一上午就没停下来 WOC 的感叹。Google 总算放出了他们去年承诺的“可连续对话改图”的 Gemini 文生图能力。
AI工具用得好,能提效还能摸鱼。
这几天,打开社交媒体平台,很多人正在热烈讨论一个叫做「AI 模特」的玩法。 点开几个 Demo,确实惊艳。下方视频是一位海外网友自制的穿搭合辑,你能分得清这是 AI 还是真人吗?
近些年来,以 Stable Diffusion 为代表的扩散模型为文生图(T2I)任务树立了新的标准,PixArt,LUMINA,Hunyuan-DiT 以及 Sana 等工作进一步提高了图像生成的质量和效率。然而,目前的这些文生图(T2I)扩散模型受限于模型尺寸和运行时间,仍然很难直接部署到移动设备上。
近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。
最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。
12月初,豆包和即梦在移动端悄然上线了一项新功能:能够生成带有工整中文字体的图片。一时间,朋友圈被各种AI制作的四格漫画、产品海报、电影海报刷屏。
最近忙着追更OpenAI,总想着给奥特曼做些梗图,