一年前,你想让AI画出“一只穿着复古皮衣、站在东京街头、日落光线打在墨镜上的猫”,得试个五六次,画出来要么穿错衣服,要么猫的动作奇特,要么背景得靠开盲盒抽卡。今天,在一众主流图像模型上,这句提示词几乎能一次命中。
(由可图2.1生成)
上周才被即梦3.1秀了一波“表现力”,这周可灵2.1立刻跟上,国产模型们的“期中大考”已经开卷,看来谁都不想掉队啊。
官方说得再好听,也得看实操。我们围绕三个高频创作需求做了组实测,看看这次2.1的升级,是不是货真价实。
►指令理解力|一组提示词,测出三种AI人格:
测试提示词:一个短发女孩坐在窗边喝咖啡,穿白色毛衣,阳光照进来,背景是绿植和木质书架
(可图2.0模型)
(可图2.1模型)
(即梦3.1模型)
这个 prompt 同时考验了:动作(喝咖啡)、穿着(白毛衣)、位置(窗边)、光线(阳光)、背景(绿植+书架)多个要素的并列理解能力。
可图 2.0乍看像个刚学会套公式的学生,可以执行,但又太木纳了。你说绿植在后面,它偏偏长到窗外去了,画风也总透着点“建模感。2.1倒是升级为比较灵活的理工学霸,理解力明显增强,但总感觉表达偏“标准化”,人物肢体语言和表情缺乏松弛感,仍会略显一些“AI感”。
至于即梦3.1嘛,嗯!这位不愧是一个懂女生、还会调滤镜的创作系老法师,除了对提示词指令的遵循外,还会自己加点氛围感,光影有层次,表情也松弛自然,整张图透着“生活气”。
比较下来可图2.0还在“能生成”的阶段,2.1提升到了“能控图”的阶段,而即梦3.1已先一步走向“会表达”的阶段。
不过在测评中,只要是“标准场景”,大部分AI模型其实都已经能画得像模像样,至少不太会翻车。所以我很好奇:如果加入一点情绪?加一点隐喻?它还能不能听懂?
测试提示词:一个女孩站在湖边,水中倒影是老年时的女自己,天空是黄昏的粉橙渐变色
(即梦2.1模型)
(即梦3.1模型)
这个提示词本来是个典型的“隐喻型构图”:现实与未来的对照,青春与老年的映射,加上黄昏粉橙渐变的天色,怎么想都该是一张有哲思、带情绪的图吧!
结果,一测下来集体翻车,老年“倒影”与女孩面对面站着,像是在平行世界偶遇;老年人画得半透明,像灵体附身,一脚踏入通灵剧本;更离谱的还有“湖面裂开、灵魂升起”,配上“招魂现场”BGM可以直接冲热榜。看来目前AI图像模型都有一个共性短板,目前都还不具备真正理解“概念对照”或“时间递进性”的能力。
►风格稳定性|谁才是真正的“风格掌控师”:
测试提示词:(xx风格),一个弓箭手对着敌军拉弓射箭
(油画风格,上图为可图2.1,下图为即梦3.1)
可图2.1对“油画风”的理解似乎有点偏差,与其说是油画,不如说是“皮肤打了高光”,硬要说它懂油画,可能它只是知道“画面糊一点、颜色厚一点”就叫油画。整体看上去更像游戏角色设定图,敌军站得整整齐齐(像来拍年终合照的),画面构图也偏僵硬,没有多少战场氛围。反观即梦3.1的表现就松弛又真实许多,远景和光线处理,更接近经典西方战争油画的空间层次感,氛围拉得很足。
(史诗级电影风格,左图为可图2.1,右图为即梦3.1)
可图2.1在皮肤质感、手指结构、光圈细节这些局部处理上其实表现得不差,但整体总觉得哪差了一口气,细看还是有“AI感”(蛮像GPT生此类图的表现)。而即梦3.1则营造出“战士冲进战场”的混乱氛围,人物表情更生动,背景细节也更多元,灰尘、迷雾、环境残破感都做得挺自然,确实更贴近电影感。
(美漫风格,上图为可图2.1,下图为即梦3.1)
这可一眼就能看出差异——虽然同样是美漫,但年代感完全不一样:可图2.1 的美漫风,偏向上世纪七八十年代的老派质感,线条粗,更像简笔画时期的古早英雄漫画,有复古感,但也略显平淡和僵直。即梦3.1 的美漫风则明显贴近当代流行审美,动作张力更强,画面更有“大片感”。尤其是场景氛围和渲染处理,已经接近美漫电影海报的质感。
►人像质感测试|谁更懂人像摄像
测试提示词:柔光,光影对比,写真照片,人像写实摄影,阳光照耀下来,朦胧感,一位穿jk的女孩身处花丛之中。
(可图2.1模型)
(即梦3.1模型)
不是.....这也.....,没有对比就没没有伤害啊!可图2.1稳定得有点“僵”,人很完美,景也很完美,就是没什么生命力,一股浓浓的“影楼感”扑面而来。即梦3.1不仅姿势有变化、情绪有层次,还能看到不同构图在表达不同气氛,不断抽卡不断有惊喜。
►中文文字表现
测试提示词:艺术海报设计,等轴,小标题“中国”,大标题“东方美学”宋体,署名“CMAI”,极致抽象极简红色古建筑水墨画,版式高级,精准构图,大气,高级,特别,红黑金配色,留白艺术。
(可图2.1模型)
(可图2.0模型)
(即梦3.1模型)
这组「东方美学」海报测试有点出人意料,按理说新模型应更稳,但在整体艺术感上,2.1反而“被提示词牵着鼻子走”,生成结果高度标准化,虽然没出错,但整得太死板,缺乏设计感,像是AI在机械执行「红黑金+构图+水墨」这几个关键词,最后做出一张“模板级”的格式图。对比之下,2.0虽然旧,但显得更有想象力。它在中文字体的融合、构图形式的探索上反而敢玩一些。
整体看下来,可图2.1听指令是更准、执行是更稳,基本没什么硬伤,完全是那种“老师讲啥我就写啥”的理工学霸模板选手。你给一个清晰的提示,它就能认真复现。但问题也在这儿:因为它太“懂事”,反而有点“无趣”,缺少“不期而遇”的创作灵感,更缺少人味、松弛感与想象力。
相比之下,即梦3.1更像一位混过设计院、拍过商业片、也追过各种展览的“创作型老法师”。它不仅能理解你说了什么,还会“顺手帮你润个色”。给出的图像也更有情绪、有构图意识、有光影节奏、有摄影语言,甚至还能当做人像摄影师的灵感板、动作库。
当然,2.1也并非全输。在中文理解、细节结构、局部质感等维度上,它依旧展现出“控场力”。只是,创作这门课,考的不止是准确率,还有共鸣力。
所以,如果说AI图像模型是一场大型“创意大考”,那可图2.1像是拿了高分的“工科第一名”,即梦3.1则像是现场作画拿下评委满票的“艺术特长生”: 一个赢在应试答题卡上,一个胜在灵光一现。而我们这些坐在评委席的创作者,也正享受着这场AI进化竞赛带来的红利和浪潮。
下一轮升级什么时候来?我们等着继续监考!
文章来自于“CMAI-Hub”,作者“刘娜志君”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0