
「建议出 480P」
从来没聊过可灵。
可灵给我的感觉,就像是老家那个县城刀枪炮同学。你对他只有个模糊的印象,知道他在特定场合很有能量,但平时办事也想不起来找他。
Be like:对的,我不像即梦一样做社交,我不像xx一样刷榜单,我只是专注服务专业创作者做专业视频的三专视频大模型一枚呀。你们普通用户对我没印象也正常的。
先前他们宣传的就是物理模拟、电影质感、长视频,反正就是暗示你,用别人家模型玩玩还行,真想做个正经片子还得找可灵。最近他们又上线了原生4K功能,可以说是继续朝着垄断商业化AI视频制作的方向显化中。
最近可灵又小火了一把,说是老外天天沉迷用它做什么韩女球场观赛视频,逼真程度又赶超英美了。
去他们首页看了一眼 ,哦,原来是上了个模板。

无论如何,我们决定测一下,看看哥们到底是自信还是自嗨。
说到快手,众网友的一大遗憾就是:早年间那些被称为残酷底层物语的疯狂狠活,由于诞生在高清手机和5G技术都没普及的年代,所以实在是分辨率过低没法细看。
480p的鞭炮炸裆只能听个响,高糊褪色的老八吃翔也难辨真假。说实话,谁不想身临其境这些狠活发生的现场,亲自感受残酷底层物语的力量?
所以我决定配合可灵新出的4K直出功能,把之前刀哥虎哥之流在快手上发布的经典作品进行1:1还原复刻,带大家重返那段放荡不羁的日子。
首先是经典中的经典,猛虎过江。
具体指:只露出一个头的虎哥被包在麻袋里,身边的徒弟狠狠踹一脚,虎哥就纵身入江,不见踪影。据传后来是被下游洗菜的大姨救起来的。
我上传了虎哥的一段视频和音频,建立了虎哥的主体形象,克隆了他的音色,并根据原视频输入了提示词。

哦对,为了致敬当年刀哥虎哥只知道要小心心、一分钱没挣到的创举,我特地把场景设计为快手直播间里,让数字人观众送礼物弥补他们原生职场的缺憾。
成品如下:

一开始徒弟打包虎哥的时候,手上动作有点太多,像是抖音小姐姐附体开始跳手势舞了。
后来走路的时候,也略显僵硬,总觉得是小鹏机器人外面套了个人皮。
至于麻袋下水的时候,整个物理效果还是不错的,包括水波、水声和涟漪,都达到了预期水平。
但最严重的问题是,我不是说这是快手直播间吗?咋把原视频发给我了?
于是我又用即梦试了试,看看没法生成直播间的壳子是否是通病。

结果人家能生成出来。不过生成的这些字基本也是乱码。
除此之外,在上传同样一段音频的前提下,即梦对音色的模拟就是比可灵强。
缺点是即梦老喜欢根据自己的独立思考加一些音效,比如这个屁声,完全不知道为什么会出现。
再测第二条,唐老鸭上吊。
顾名思义,虎哥把新收的徒弟唐老鸭吊桥上,然后一脚踹开凳子,唐老鸭开始挣扎,虎哥大喊「双击!」
成品如下:

这一轮虎哥说话的节奏更好一点。抽出椅子的动作和唐老鸭腿部晃动的动作也都干净利落自然。
但是手势舞问题依然存在:唐老鸭那个手都抖成一团了,我想数数到底有几根指头都费劲。
手抖太快了,可能这就是快手。
而且,依旧没有理会我「在快手直播间里有人刷礼物」的指令。
再用即梦试试:

即梦依旧是成功给这个视频套上了快手直播间的壳,但也依旧是乱码横飞甲骨文遍地。
动作流畅度方面倒是和可灵差不多,优点是没有手势舞问题。
但即梦最神的是,发挥了自己的主体性,给虎哥加了个符合人设的台词,喊了句什么「杀马特团长」,然后又说了几句听不懂的古神低语。
咋说呢,虽然是挺有意思的,但你作为一个视频大模型能不能他妈的按照提示词生成啊?视频你给我生成好的啊!#嘎子摔杯.jpg
再测最后一个,这次我特意挑了个执行起来非常费劲的狠活,场景和动作上也相对复杂。
我做了一些精简,把提示词发给了可灵。

非全部提示词
成品如下:

令人惊喜的是,这次终于有点快手直播间的样子了。
但生成的观众评论如黑客帝国里的数字代码一样若隐若现,非常后现代。
而且先不论这个鞭炮放得咋样了,崩完之后直接无痕迹了,地上也没垃圾虎哥脸也没黑,这也太环保了。谁发明的进步主义鞭炮?
同样用即梦做了一版:

不知为何,即梦生成的虎哥和鞭炮都有点像p到背景上的。
而且负责点鞭炮那小子,他手里的烟是从哪变出来的?粗看动作挺行云流水,细看全是魔术。
但这个鞭炮炸完还是有痕迹的,略胜一筹。
后来我又想,是不是可灵已经与这种低端vibe完全切割,所以上面几条视频才都让人心生遗憾?
于是我专门挑了个高端场景高端活动:在金碧辉煌的礼堂里,外资企业家马斯克举着手机凑到虎哥身边求合影。
成品如下:

不知大家有没有发现,这个视频里,除了虎哥之外,所有人无论男女都长着马斯克的脸。
而且左一那位女马斯克伸出的手,根本看着就不是人类的手啊,看着有点像蜥蜴人的手,非常恐怖。
为表公平,我也尝试用即梦做了一版,但他们识别出马斯克之后直接拒绝生成了😭

啥意思,马斯克是人虎哥不是人呗。
我又顺势用可灵和即梦分别做了「东北好果汁」的茅台风格广告,并要求广告中的手做了东北大花布风格的美甲。
成品如下:

见仁见智吧。
测完这五组,我感觉可灵最近最得意的原生4K功能,可能正是它给自己挖的一个大坑。
可灵说得很好听:
别人家都是先生成1080P再转4K,算法优化的过程会有误差会有变化;
我们是全球首个原生4K生成,这视频在娘胎里的时候每一帧就都是4K的了,所以看起来更高清更保真。
但这一切的前提是你这个视频模型的生成能力本身没问题。
如果你本来的水平就是超写实主义的1:1精品画作,那换了更精细的笔刷之后,的确会让人感觉每一个毛孔都在呼吸。
但如果你之前生成出来的就是油画质感的皮肤、时而四根时而六根的手指和对不上口型的嘴,那画面更清晰之后,只会让观众觉得更碍眼。
4K其实就是个放大镜,优点会放大缺点也会放大。
就像下面这两张图,要不是4K直出,我都不知道可灵生成的视频里的背景这么难绷。


都快达到世界模型水平了
我甚至建议可灵着手研究480p大模型,直接用快手得天独厚的站内狠活资源训练,然后教育一下用户审美,宣称在这个聒噪的时代,低信息量的视频才是好视频,模糊的AI才是伟大的AI。
这样就没人能发现现存的诸多问题了。
不过说到底,可灵毕竟是县城刀枪炮,确实是有人家无法替代的地方。
我让马斯克和虎哥分别出演了某电车和爱马仕的广告,看看可灵在电影质感、物理模拟上表现如何。
首先是某电车的:

虽然车轮动起来之后是一团浆糊,车的尾气也不像现实世界场景。
但是马斯克行走过程中,车身上光照和反射的变化都很真实。
马斯克坐进车里时,座位、方向盘、车门的运动也都很自然。
还可以吧。
然后是爱马仕的:

这条还是正经可以的。虽然口型没对上,但运镜很丝滑,衣物的摆动很符合物理,Birkin上的细微纹理也都很清晰,五金扣上也有流畅的光影变化。
而且虽然是虎哥出演,在他开口说台词之前,还是有一些高级感。建议爱马仕后台联系购入这条片子作为产品宣发广告。
你看,通过这两条片子也能看出,在涉及静物的场景可灵的4K是个加分项。
但只要画面里有人或其他运动物体,就有点完了。
或许这就是可灵之后的路线吧,高清生成4K生成,但就专注生成一些动不了的东西。
毕竟之前在整活上吃过亏了,以后就只整死的。
(本文封面由可灵生成,纯人工写作)
文章来自于"葬AI",作者 "罗子马"。
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales