
终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道
终于等到开源好用的修图大模型了!阶跃模型三连发,卷疯了多模态赛道最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。
最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。
阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
算力砍半,视觉生成任务依然SOTA!
当你翻开相册,看到一张平淡无奇的风景照,是否希望它能更温暖、更浪漫,甚至更忧郁?现在,EmoEdit 让这一切成为可能 —— 只需输入一个简单的情感词,EmoEdit 便能巧妙调整画面,使观众感知你想传递的情感。
Intangible,现已获得 400 万美元的种子资金支持,提供了一款 AI 驱动的创意工具,让用户通过文本提示创建 3D 世界概念,助力跨行业创意专业人士。a16z Speedrun、Crosslink Capital 和几位天使投资者领投了本轮融资。
现有的可控Diffusion Transformer方法,虽然在推进文本到图像和视频生成方面取得了显著进展,但也带来了大量的参数和计算开销。
一张图、一句提示词,万物都能乱入你随手拍的视频。
现在,要想往视频里毫无违和感地添加任何东西,只需一张图就够了。
可控视频生成,对于自动驾驶技术而言,同样非常重要。
昨日(12 月 9 日),知名社区 Reddit 发布公告,正式推出 AI 驱动的搜索工具 Reddit Answers,Reddit希望通过该功能优化平台的信息检索功能,为用户提供更高效便捷的信息获取途径。(手动狗头:作为一个内容站,没有AI搜索怎么能行呢。