世界模型走了一些弯路

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
世界模型走了一些弯路
7520点击    2026-07-04 10:51

世界模型走了一些弯路


 「不如直接数字人


私以为,世界模型这个概念的发展经过了三个非常幽默的阶段。


第一阶段:硅谷真懂行的老登如杨立昆、李飞飞,觉得大语言模型在讲故事上没啥空间了,所以从学术圈拽了个新概念过来尝试弯道超车。


但老登们坏就坏在,都在那忙活自己的,也不把概念给统一了,因而导致了世界模型圈的礼乐崩坏。


第二阶段:一些做不好本职工作的视频模型厂独立思考了一下,觉得反正现在能实时生成就能叫世界模型,那我直接别做传统视频模型了,做实时生成视频模型,然后就声称自己是世界模型公司得了呗。


于是爱诗、快乐生蚝之流都把世界模型当配货给震撼首发了。


对吧,而且老百姓根本也不知道世界模型应该是啥样,谁先做出来哪怕是一坨也能抢占话语权。


第三阶段:有些邪恶的奋斗逼(如Vivix)开始给这种实时生成视频模型找应用场景了。


比如虚拟陪伴虚拟直播,所以别的蹭世界模型的公司也没法纯靠不明所以的demo骗钱了,都得开始假装思考消费者需求了,都得开始把自己包装成数字人公司了。


近几个月此类公司不约而同批量涌现啊。


比如最近大力炒作的10人00后团队猫薄荷(Catnip)做的缅因猫(MaineCoon),声称自己做了个「史上最快流式音视频社交模型」,我以为终于有个不炒世界模型概念的了。


结果点进官网一看,人家直接宣布自己发明了一种全新的世界模型——社交世界模型。


世界模型走了一些弯路


你们这么造词也太累了,以后直接叫第一世界模型、第二世界模型、第三世界模型得了。


我去查了下,猫薄荷这团队去年底还在做AI视频互动产品(这大概就是社交大模型这个词的来历),思考的还是怎么低成本获客,怎么今年趁着世界模型风摇身直接有训练模型能力了?


现在怎么拿开源框架做个后训练就说自己是世界模型,这风气到底谁开始带的?


造词还不是最封神的,它们还自己造了个基准测试叫SocialVideo Bench,然后自己拉了个榜单,宣布自己取得了第一名。


世界模型走了一些弯路


自己办比赛自己当裁判然后自己进球,建议男足学学,明年咱们也办场世界杯。


这招其实我们的好朋友马卡龙也干过。


马卡龙花大力气搞的Macaron-V1-Preview,实际上是给GLM 5.1后训练加了5个Lora。刚好和他们跑的基准测试挨个对应。


然后下图马卡龙自己跑出来自己第一的4个Bench里,前两个都是马卡龙自己做的。


世界模型走了一些弯路


不知道该说啥了,AI应用转模型原来是这么一回事。


那歌怎么唱来着~听说你还在搞什么原创,搞来搞去好像也就这样~


不过也无所谓了。智谱现在这么火,纯做贴牌代工厂,给大客户搞GLM 5.2后训练不出意外能爆到大金币。你知道的,我们一直相信马卡龙很牛逼❤️


回到主角,我们直接来测测MaineCoon到底有没有东西。


MaineCoon现在主要有两个功能。首先是Instant Video,主打传统的AI视频生成,但特点是快。他们团队的人非常自信,直接在这个功能后面加了个Fast&SOTA的标识。


世界模型走了一些弯路


我用了一下确实特别快,生成一个20秒的视频,基本只需要8~9秒。可以说在Fast这个赛道确实SOTA了。


但在Fast之外,这些视频都不具备使用价值。


比如我输入了一段提示词:世界杯赛场上日本队和巴西队踢球,一个身穿蓝色球衣的日本队队员射门射进了,穿国旗衫的巴西守门员抱头痛哭,看台上穿和服的日本球迷一边跳舞一边庆祝。


成品如下⬇️


世界模型走了一些弯路


可以看出,MaineCoon属于塔可夫斯基入脑了,只会拍长镜头不会分镜,人物主体的动作也不会变化,基本只体现氛围感。


而且整个画面里只有主人公是相对清晰的,背景里的人物全都量子化了,不知道的以为三体人提前打来了,非常恐怖。


所以作为视频模型而言,MaineCoon没啥可聊的,就是比较快,但快也不能当饭吃。


但它还有第二个功能,也就是处于Beta阶段的流式视频生成。使用方法和之前测过的Pixverse、7verse差不多,先生成一个场景,然后通过输入提示词实时改变画面。


世界模型走了一些弯路


分为Control Mode和Chat Mode两个模式


Control Mode就是当导演,Chat Mode就是找陪聊。我先用Control Mode让它生成了一个外卖小哥跑外卖的场景,然后中途让车撞他、车主打他、警察逮捕他,最后一起吃饺子,


成品如下⬇️


世界模型走了一些弯路


画面质量上,和视频生成的问题一样,全是量子人,全是粒子特效,有一种做梦的感觉。


反应速度上,输入一段指令后,也基本是在10秒左右之后对画面进行改变,和之前测过的世界模型差不多,中规中矩吧。


不过MaineCoon生成的世界里,角色还真有点逻辑上的一致性,会根据发生的事件改变之后场景、行为和语言。这确实比之前只有七秒记忆的世界模型强。


最后我又测了一下Chat Mode,让它生成一个年轻的狼人帅哥跟我谈恋爱,弥补某乙游下架某男主的遗憾。


结果大半夜差点把我吓晕啊⬇️


世界模型走了一些弯路


MaineCoon生成的角色不知道为啥,会持续缓慢地向屏幕这边凑,可能是想亲我。反正脸就越来越大,嘴巴越来越多,伊藤润二来了都得找个出马的压压惊。


但这确实是MaineCoon三个功能里最能想象到商业化应用场景的那个了:


Instant Video固然快,但Seedance也出mini了;


Control Mode比别的实时生成视频项目耐看,但这玩意真能助力具身或预测未来吗;


唯有Chat Mode,虽然生成的角色都快赶上恐怖片boss了,但万一有人的xp就不是人呢?


神了,这流式生成视频要不直接改名叫刘氏生成视频得了,反正都是跟刘宇抢业务。


当然矬子里拔大个,MaineCoon已经是最近这个赛道炒作得比较成功的了,让我们看看它的对手:


世界模型走了一些弯路


没错,伟大的生数在我们发完道歉信后,终于不研究什么龙虾人了,开始研究正经福瑞了。


这实时交互模型,放别人家肯定也直接叫世界模型了。但生数毕竟已经开始做物理向的世界模型Motus了,可能没必要在这也蹭蹭了。


我和他们放在首页的角色「狐妖玉宝」聊了一下,剪辑后的成品如下⬇️


世界模型走了一些弯路


生数这个比MaineCoon强的是,可以打开摄像头和屏幕里的角色面对面聊,不用打字,说话就行。


而且屏幕里的角色确实能看到你的动作,be like:


世界模型走了一些弯路


我问她这是几,她说是三


然而这种对用户的观测是需要通过指令触发的,比如我后来啥也不说,纯手舞足蹈了一会,姐们就一点反应都没有,跟个死人一样。


然后生数应该是为了避免像MaineCoon一样人物乱动吓到观众的情况,对角色做了硬性规定:原地站着不动,眼睛死死盯着用户。


所以当我要求她跳个舞的时候,她在那自己像念经一样喃喃自语:轻轻晃肩、转圈、摆动手臂……把提示词给朗诵出来了。


所以当我要求她转个圈的时候,她说:不行,因为我要一直看着你……


👁️👄👁️小姐姐在看着你Little sister is watching you 👁️👄👁️


我建议直接改名伪人模拟器上架Steam得了。


我觉得MaineCoon Chat Mode和Vidu S1作为虚拟陪伴产品最致命的问题有两个:


第一,10秒的延迟在视频生成这个赛道完全能当个卖点,但当用户的需求是唠嗑,就显得太前现代了。都谈人机恋了,谁能接受对面过了10秒才回复你啊?


第二,这俩产品的对话体验还是半双工,类似对讲机,你说一句她说一句,你打断她她也不闭嘴,完全就是小爱同学水平,非常不尊重用户。


不理解以上两点的可以给豆姐打个电话,纯聊日常话题的话,基本是秒听秒回,而且可以随时打断。


豆姐率先一步启动边说边监听的全双工模型了,而ChatGPT目前是支持中途打断的半双工,最近也开始内测全双工了,这是大势不可逆。


低延迟反应快的细糠吃多了,谁能受得了粗粮啊?


当然,MaineCoon Chat Mode、Vidu S1以及其他实时视频生成产品做不到这些也情有可原:除了处理音频信息之外,哥几个还得处理视频信息,什么口型啊什么人物动作啊都得纳入思考,耗时耗力耗token。


但真有必要吗?


你们现在做的这玩意,动也不动,转身也不会,场景也不变,本质上不就是数字人vtuber吗?


那何必走流式视频的技术路径呢,你们直接把钱投到AI 2.5D建模,做100个皮套,再把豆包的语音模型插进去,直接对口型不就完事了?


这使用体验绝对比现在这些世界模型好。


在类似路线上,字节有OmniHuman,快手有Kling-Avatar,蔡浩宇团队都整了个LPM 1.0骄傲地声称已达到全双工无限流水平,说明只要不硬贴世界模型大家都有美好的未来。


这世界模型本没有路,走的公司多了就有了一条弯路,然后创业者都开始走这条弯路,走着走着都忘了两点之间线段最短了。


可怜呐。


最后插播一条幽默新闻。


100年没有新消息的虎牙,最近突然开始搞AI,倒腾出一个叫VAM 1.0的数字人模型。


世界模型走了一些弯路


任谁都能看出来这是个些许过时的缓解焦虑用的向上汇报产品,但它仍然比那些流式生成的数字人有更强的观赏性和可用性。


那还能说啥呢,兄弟们回头是岸吧,骗投资人可以骗AI媒体小编也可以别把自己骗了。


如果真有AI陪伴理想,不如趁现在赶紧把公司卖了,买几台硅胶机器人,研究研究怎么把Grok装它们嘴里得了。


(本文封面由ChatGPT 生成,纯人工写作,顺便点个歌吧)



文章来自于微信公众号 “葬AI”,作者 “葬AI”

AI转型,免费服务,就找AITNT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales