百度最新视频生成模型蒸汽机2.0(MuseSteamer 2.0),好像真的有点东西。
这是在网上热传的一段由它生成的视频,可以说是要声音有声音,要画面有画面,不说的话还以为是某部重生剧的先导片。
AI配音的中文非常自然,和角色口型也对得很好。
我们也试着生成了一个小视频,仅用1张图片和1段提示词,就做出了这样的效果:
仔细听,这只猫甚至会呼噜噜,远处还有虫子叫。
网友评价:这简直像魔法一样!
它要怎么用才会更好玩?又能用来做什么呢?
我们实测了这款模型,一起来看它的具体表现。
该说不说,作为全球首个中文音视频一体化生成的I2V模型,蒸汽机模型在中文语音的表现上可以说是手拿把攥,但这是蒸汽机1.0模型刚出的时候就已经介绍的东西。
作为升级版本,蒸汽机2.0更加擅长复杂运镜,用镜头讲故事的能力也更强,画质进一步提升。
让我们看看,作为普通人能用这个模型实现什么想法?
它的表现和爆火的Veo3相比,哪个更好呢?
我们让豆包生成了一张手绘风格的图片,画面上是一只大野兔蹲在草丛里。
就假装它是我们画出来的吧(手残党落泪)。
然后,我们向蒸汽机2.0有声版输入了下面这段提示词:
保持彩铅的手绘风格,有风吹过,野兔在草地上奔跑,然后停下,警觉地看向四周。
一起来看它的表现:
把同样的图像和提示词输入给Veo3,它给出的结果是这样的:
可以看到,两个模型的表现都很好,对兔子的神态把握非常生动。
声音上,感觉兔子好像钻耳朵里了,麻麻的(我喜欢)。
虽然蒸汽机2.0模型似乎没能很好理解“奔跑”,但抓住了风吹草动的细节。
不过,不得不说,Veo3视频生成的速度要快上许多,感觉也就不到1分钟的时间。
相比之下,百度蒸汽机需要3分钟。
可能是画面精细度的原因:拿视频大小来说,Veo3生成的视频只有3M,蒸汽机生成的视频则有20.8M。
后者比前者长2秒。
养宠物的朋友们,手机里一定有很多毛孩子的照片吧。
这是一只猫,敦实,可爱。
我们设计了一个小场景:
一只黄蝴蝶飞过来,吸引了猫的视线,猫伸出爪子想要抓蝴蝶。
蒸汽机模型给出了这样的结果:
神态非常自然!但蝴蝶呢?
Veo3的表现则更有互动性:先让镜头外的人示意了一声,猫猫叫了一下。
不过,由于是“真实”视频,两个模型都出现了一些小bug。
比如猫爪的肉垫……看来不只有人手会出问题。
但总体来讲效果还是很不错的,是一种很好地让照片自然地动起来的方法。
而且既然动物可以,人物应该也行。
效果比单纯加滤镜要好上太多,人物神态也很自然。
如果你是一个有想法有故事的创作者,那蒸汽机模型或许会是非常好的创意实现工具。
拿《红楼梦》举例,可以用模型让林黛玉念上一句《葬花吟》:
或者,让麦当劳叔叔推荐肯德基?
中文配音非常自然,人物神态和语音的配合也很出色,但模型对情绪的把控可能还有待提升。
无论是拿AI去生成图片再转视频,还是直接使用真人照片,只要有想法,为什么不试试呢?
免费额度还蛮多的呢。
刚刚在尝试绘画转视频的时候,感觉音效像踩在耳朵里一样,特别近,让人感觉痒痒的。
这就很容易让人想到短视频的“流量密码”:修驴蹄、挤痘痘、洗地毯、切肥皂……
还有这几年兴起的捏捏和最近网上很火的AI版ASMR。
巧了不是,在百度绘想的创意特效上,直接就有把图片主体变成捏捏的选项。
但我们主要看蒸汽机2.0有声版的音效,让它敲键盘试试。
声音效果还是不错的,但这个手……我不行了,为什么会这样。
总的来说它在配音、人物(或者动物)神态、画面精细度上表现很好,官方介绍为“电影级”,但蒸汽机模型似乎只能配效果音和对话,即使提示词里包含“背景音”也不会自主生成,需要手动添加bgm。
但提示词输入栏有单独的一个背景音选项,选择以后也没有任何变化。
在语义理解上面,蒸汽机还是会忽略掉一些内容,例如前面实测的“奔跑”和“黄蝴蝶”,相较之下Veo3对提示词的把握更好。
另外就是历史难题人手生成了,从效果上看,蒸汽机还有进步的空间。
顺便一提,蒸汽机2.0有声版的视频长度有5s和10s两个选择。
目前蒸汽机Turbo有声版限时优惠两周1.4元/5秒,价格方面低至行业70%。
登录还送每月210免费额度。
想象力值售价为10/元。
拿Veo3作为对比,Veo3 Plus会员需要37.5$/月,折合人民币268元左右,有7500积分,图片转8s视频每次300积分,大约能转25次,也就是200s。
而百度蒸汽机2.0,即使在当前优惠结束后,按照2.5元5s的价格来算,相同长度(200s)的视频仅需100元。
不仅便宜一大半,并且蒸汽机的精细度更高。
可能还有更多获得免费额度的机会。
早在7月,百度蒸汽机刚刚发布的时候,在外网就获得了极高的评价,认为它是颠覆性的变革。
时隔50多天,蒸汽机2.0发布,网友们的评价也更上一层楼。
重点多聚焦在“影院级品质”和“视频真实感”上。
但或许最重要的事情是,百度蒸汽机模型已在百度移动生态广泛使用,加上本土的中文生态,更适合中国创作者体质:
现在虽然仍存在一些不足,但我们期待它越来越好。
参考链接:
[1]https://x.com/dotey/status/1959738669431980109
[2]https://mp.weixin.qq.com/s/f_xtC28h3wd1j6cY0_7rYg
实测地址:https://huixiang.baidu.com/
文章来自于微信公众号“量子位”,作者是“不圆”。