昨晚,AI视频领域,终于来了一点新东西。
可灵,掏出了一个全新的多模态视频大模型,可灵O1。

弹窗上,居然显示连发5天,后面除了可灵O1,还有新货。
而这也是第一次,在AI视频领域,有人把参考生视频、文生视频、首尾帧生视频、视频内容修改、风格重绘、镜头延展等等多种能力,融合到了这个大一统的可灵O1模型之中。
而我,也做了一个小片子,来给大家展示一下,它的能力。

可以说,这就是AI视频领域的Nona Banana。
目前,已经正式上线,所有的人也都可以玩到。

作为可灵超创,我在上周其实就已经拿到了内测资格,在体验了几天,花了2万多积分,做了2个小片子以后,说实话,很多的玩法让我很惊喜。
所以,我也想来跟大家,真实的聊一聊,我对可灵O1的评价。
话不多说,正式开始。
首先,可灵官网在此:
https://app.klingai.com/
进入首页之后,你看到这两带颜色且明显长的跟其他的icon不一样画风的,就是可灵O1。

点进去以后,可以看到网址上,写的是Omni。

可灵O1的这个O,就是Omni的缩写,跟GPT-4o的那个o意思一致,这单词来自拉丁语前缀,意思就是“all,所有、一切”。
基本现在大模型圈已经有了一个心照不宣的默契,就是谁在名字里加个 Omni,基本就是在对外说。
我是一个多模态大一统的基座模型。
进去以后,就可以看到这么一个界面。

可以上传图片和视频,也可以用主体。
主体不是一个新东西,这个功能你可以理解为一个预设。

把一个人物或者物品的多角度图传上去,然后封装成一个主体,更便于调用。
顶上那一圈功能,是对可灵O1的一个快捷模板,比如参考生视频,就是传几张图,更加确保一致性的情况下,生成视频。

而这次的两个新东西,分别是指令变化和视频参考。
这也是可灵O1这次我觉得的,重中之重。
以前的可灵,是完全没有办法,对视频进行编辑或参考的,但是这次,终于可以了,这也是我为什么想说,这是AI视频领域的Nano Banana的原因。
虽然这还是第一版,还有部分局限性,但是这也是第一次,我们用嘴改视频,终于也成为了可能。
我列几个我自己觉得还是比较有趣的玩法。
让大家看看它的能力。
第一个,当然逃不开的就是,对视频内容进行增删。
任意增加内容,或者删除内容。
以前要在视频里多加一个东西,比如桌子上多一杯奶茶,天空多一架飞机,街道多一辆车,这种事真的究极费劲。
随便一小段,就能干掉一个后期师一天,真的,特别费人,巨浪费时间。
特别是一些综艺,比如某个艺人塌房的时候,那抠人抠的。。。简直是噩梦。
而在视频多模态模型的加持下,这个传统需要巨大人力修改的视频模态,成本被拉到了极低。
现在,只要会说话,会描述,就可以增加或删除视频里的内容。
比如。
经典电影《马达加斯加的企鹅》里面的那三只企鹅,没穿衣服,实在是有点不文雅。
那我们一句话,就可以给中间的Skipper,穿上一个西装,戴上墨镜。

就能让它得到一个很不错的效果,更像老大。

这次在参数上,有一个比较新的点也可以说下,就是时长自由,3~10s内的视频,都可以自由生成。

再比如,我自己生成了一个歌剧女郎。

为了给她增加一些神秘感,我就给她添了一个面罩。

既然可以增加,那删除肯定也是完全没有问题。
比如我随手拍了一个公司里面的镜头。

然后,直接,一句话消除。

真的,所有的人,就全都没了,就跟灭霸打了响指一样。

比如哆啦A梦里面的这个镜头。

直接一句话,让小夫在这个画面中消失。

你真的,完全感受不到小夫的存在过。
可怜的小夫。。。
所以啊,很多分手了的视频,也其实可以,用可灵O1处理处理。。。
你懂的。。。
第二个,也很好玩。
上面我们看了增加和删除,而现在,你也可以只改视频里的某一个部分。
比如。
不改人,只改衣服颜色,不改构图,只把夏天改成冬天,一键变雪景,不改镜头运动,只把楼下那条路,变成开裂的地表等等等等。
比如,我拍了一下我们公司附近的一个很大的空地。

我们可以,直接用可灵O1,打个响指,让这个地方,一键地表开裂。

还有,让我坤哥手上的篮球,变成足球。

还有,一个模特走秀,我们希望她换头发,换衣服等等,也可以一句话直接修改。

百变女神有木有。

不止可以变化场景和物体,还可以,让修改视频的天气。

让人物和场景完美融合。

整体效果还不错,不过还是会有一些不足。
比如精细控制不够,坤哥足球那个case大幅运动偶尔会崩穿帮一下,但是如果你的场景不是电影级的画面,就是短视频这种,再扬长避短一下,我真的觉得已经非常够用了。
这个玩法也挺特别的,就是是一个看起来很传统,但实际非常有用的能力。
把一个现有视频,自动扣成绿幕素材。
以前我们要做虚拟演播厅、虚拟背景、特效合成等等,第一步一定是拍绿幕。
因为只有绿幕才能最方便的帮你去后期叠加各种特效效果,最方便的进行合成。
一些不需要那么精细的场景,我们其实就可以直接用可灵O1来做了。
但是对于一些传统的要求极高的影像内容,AI可能暂时能力还达不到,那扣出主体,把背景变成绿幕,后期用别的视频合成进去,其实是更好的方案。
以前传统流程如果前期没有搭绿幕,而是后期来扣,那真的麻烦到爆炸,而现在,借助可灵O1,你可以理解成,它用自己的视频理解+分割能力,帮你自动做了一次绿幕抠像。
比如这个史迪仔,在太空中漂浮的场景,我们只想保留史迪仔,然后希望把背景变成绿幕。

就可以直接说:
把视频改为绿幕,保留画面中毛茸茸的史迪仔。
然后你就能得到,一个抠完的视频。

又比如,把这个鹿的背景抠成绿幕。


效果相当不错。
除了对视频本身进行编辑之外,你还可以,把视频作为参考本身,用一个现有视频,去驱动另一个角色的视频动作。
就是大家经常能看到的动作迁移,现在用可灵O1,已经可以进行的非常好了。
简单说,就是,比如你有一个角色跳舞的视频A,还有有一个角色或者插画人物B,用可灵O1,就可以让B按照A的动作,跳一模一样的舞。
比如原跳舞视频是这个。

很魔性很抽象。
现在,我们给他一个疯狂动物城里面的尼克,让他也来跳这个舞。

只需要特别简单的一句,把视频中的角色,替换成尼克。
就可以得到一个动作迁移非常的好的尼克跳舞视频。

这类功能,在之前的一些AI视频产品里也以零散的功能出现,但可灵O1这次,直接集成进了自己的多模态模型里,而且效果非常棒。
可以非常便捷的,替代以前的动作捕捉了。
而且不止可以迁移动作,人物的表演能力,也可以非常棒的迁移过来。
比如把尼古拉斯凯奇,直接替换成,尼古拉斯赵四。

还有把AI视频里的白发老人,换成风骚律师的主角Jimmy。

效果非常的稳定。
改视频风格,应该是大家最容易理解的,也是AI视频第一次出现的时候,最流行的玩法。
也就是,在不改变视频内容的前提下,直接换一整套风格。
比如把现实拍摄的视频,改成手绘动画,或者把城市夜景变成赛博朋克等等。
还是用我最开始拍的空地,我们直接把他变成,全部变成像素化,包括手,地面,远处的建筑和天空。

又或者,把我的实拍视频,加上蒙克那张经典的呐喊。

然后,就变成了一个非常具有视觉冲击力的风格。

这个玩法,我特别喜欢。
除了上面这些比较主线的能力,还有一堆零零碎碎的,拥有模型世界知识的玩法。
比如直接根据一个镜头,生成下一个镜头。
例如这个车。

扔到可灵O1里面。

然后就会得到这样一个,展现极致速度感的视频。

比如把这个镜头,切换成另一个视角。

就可以得到一个特写。

等等等等。
通过以上的案例,其实你就能大概的看出来,可灵O1的能力了。
这篇文章的所有视频案例,本来,就准备到此结束了。
但是,而我和好基友@温维斯,在晚上聊天的时候,又有了一个新的灵感,所以,决定。

通宵,跟他工作室的小伙伴们,再一起,搓一个,新的片子。
于是,有了这个新鲜的,《我的神奇“灵”力》。

如果一定要用一个词来描述这个小片子的话,那应该就是:
灵光一现。
希望大家喜欢。
可灵O1,是AI视频领域,第一个真正意义上的大一统模型。
当然,因为是初期,模型还做不到完美。比如在多主体识别、画面质量的呈现上还能做得更好。
但,这是前往更牛逼的多模态模型的,必经之路。
现在的Nano Banana Pro强到飞起,也是从当年的Nano Banana一代,逐渐进化而来的。
就像2024年6月6号,我们看可灵1.0的时候。
也许几年之后回头看今天,可灵O1只是一个新时代的开始,就像我们用现在的眼光,来看可灵1.0那样。
但如果某一天,我们真的有那种,所谓的给一句话,它就能帮你从策划到拍片到剪辑全包的终极视频 AI。
那它的族谱往上翻,我觉得肯定会写着。
这里,曾经有一个叫可灵O1的名字。
从这一代开始,我们第一次认认真真的。
把用嘴改视频。
当成了一件理所当然的事。
文章来自于“数字生命卡兹克”,作者 “卡兹克、水杉、Chiyo”。