Midjourney v7上线后,配套的角色参考(cref)功能一直迟迟未公布。当时我就有个预感,也在评测文章里说过:这可能是个全新功能的伏笔。
果然,今天Midjourney正式公布「Omni-Reference」,即「全向参考」,或翻译成「万能参考」,配合--oref、--ow两个参数使用,这不是Character Reference的v7升级版,而是一次全面的参考进化。
惊艳的一致性和细节迁移
直接看效果吧,这是我的参考原图。
然后,我们在Midjourney Web里调用一个新功能Omni-Reference,设置一个全新的变量参数--ow,赋值400,这时我们就启用了MJ的Omni-Reference功能,得到以下结果。
不能说很像,只能说是一模一样。
同时,请关注皮肤的质感迁移,非常非常的到位。甚至连指甲部位的装饰,脸部两侧的头饰细节都一模一样。
我的个人观点:虽然不能现在就下结论说这个效果超越了Lora(二者逻辑还是有些区别,后面会讲),但单单说“像”这一点,绝大部分Lora是根本没办法做到这种程度的,尤其是在细节和画面质量上。
太变态了。
接下来,我们来试着根据一个女孩的照片,模拟她在不同的场景和服装下的角色一致性。
原图如下,我们这次把ow的赋值设定在200、700两个档位:
分别测试的提示词如下:
side shot of a girl is cooking
side shot of a girl is drinking
a girl is running
a girl is reading book on bed
a girl is makeing up for her self, and wearing a blue shirt.
结果如下:
无论是场景的变化还是服装的变化,完成得都非常好,这和之前MJ的角色参考功能完全不是一个段位的效果(用过的都知道那玩意儿基本没用)
对比4o和Lora的优缺点
好了,聊到这儿说说很多人力捧的用4o做角色一致性的问题,为什么我一直强调4o很强大但它代替不了工业生产呢?因为本质上它目前就干不了这个活,同样的图片,看看4o的模仿结果,我开了几次,根本得不到能体现一致性的长相,尤其实在写实风格下:
所以,4o目前只能做一些基本卡通风格的一致性生产,而且并不是因为卡通风格它支持的好,而是因为卡通风格对一致性的要求很低。
这就是为什么我说,什么工具干什么活,4o很强,但你拿它做影视作品,就是自找苦吃。
至于Lora,我斗胆用自己的照片试了一下真人直出在Omni-Reference下的效果,说真的完全可以接受。
原图:
生成图像:
Lora的逻辑是建立在多张照片参考的基础之上的,而MJ只需要一张照片,直接拿来对比有点不公平。理论上讲,Lora在具备模型训练经验的情况下,在还原真人的能力上应该是更逼真,但二者的工作量不是一个量级,门槛也有区别。Omni-Reference在只用一张照片的情况下还原到这个程度,我是能接受的。
所以如果你想要一个最逼真的真人效果,经验和数据量也够,可能还是Lora更优,这个还需要大量的测试才能下结论,但是MJ胜在门槛低,而且美学效果更好。
何为全向参考
那么为什么这次MJ起的名字是Omni-Reference全向参考(万物参考),而不是角色参考?答案很简单,它不光能支持人的一致性,还能支持物体、机械体、各种风格。
看下面这个逆天的例子,参考原图如下:
ow设置在300-600区间,模拟这个机械体的各种状态:
太变态了。
公平地说,这种效果以前根本没有AI图像模型做到过,对各个角度的推理都非常准确,机械臂在各种形态下都维持了很强大的一致性。
再看一个装置物体的测试,有非常多的细节, 同时我们把它们迁移到不同的场景里。你会发现效果强悍得变态,
同时,「Omni-Reference 全向参考」还能实现同样一个场景的不同角度,做设计的同学都明白这个功能的重要性,因为需要维持一致性的不仅仅是角色,叙事的背景和环境同样重要,一旦穿帮,代入感急剧下降。
所以这次的新功能并非只是解决了人物角色的问题,它本质上提供了一种场景、物体等任何“主体”维持一致性的能力,这个意义非常大。
多风格支持
再来看看另外一个大赛道:二次元动漫在Omni-Reference下的表现。我们测试一个2D风格的动漫女孩子,众所周知动漫风格可以容纳的细分是很广的,写实的、萌系的、线条感的、2.5D的,虽然都叫动漫,可是却完全不一样。4o的另一个硬伤,实际上是在量产动漫风格的图片时,会随机得到完全不同的结果。
Midjourney配合Omni-Reference完全解决了这个问题。看下面这个2D女孩子的参考表现,实际上在实现难度上比真人还要大,但拿捏的非常好。之前很多朋友会使用iw和sref来实现类似效果,但是在保持风格时,人物的一致性又没办法维持(Cref根本没法用),现在这个问题完全解决了。
生成不同角度,人物的细节和画风维持得非常稳定:
3D萌系风格效果:
总结
Omni-Reference的表现符合了我之前的期待,确实是一次非常有价值的升级,其意义甚至不小于v7的发布,因为还是那句话:对于创作者来说,需要的不仅仅只是“图像质量”“视频质量”这样的硬指标,更多的还是方便创作的效率工具。
一致性是各位创作者长久以来非常苦恼的老大难问题,Omni-Reference的出现不能说完全解决了这个痛点,但至少是一个巨大的提升。方便的操作加上MJ v7的图像质量,真的是目前非常好的解题方案。
其实Mj今天的官方推特上也说明了,他们自己也认为Omni-Reference是一个潜力很大,等待创作者不断挖掘的状态,我想这也说明了AI的核心价值:可能性。
至于尚存的缺陷,再给技术一些时间就好,没必要吹捧或者贬低谁,真的,过两天没准又有什么新东西出来,与其较劲,不如赶紧试一试。
看趋势,别看瑕疵。
无论如何,这绝对是AI一致性的新高度。
文章来自微信公众号 “ 汗青 AI Talk “