世界模型走了一些弯路

7520点击 2026-07-04 10:51

世界模型走了一些弯路

「不如直接数字人」

私以为，世界模型这个概念的发展经过了三个非常幽默的阶段。

第一阶段：硅谷真懂行的老登如杨立昆、李飞飞，觉得大语言模型在讲故事上没啥空间了，所以从学术圈拽了个新概念过来尝试弯道超车。

但老登们坏就坏在，都在那忙活自己的，也不把概念给统一了，因而导致了世界模型圈的礼乐崩坏。

第二阶段：一些做不好本职工作的视频模型厂独立思考了一下，觉得反正现在能实时生成就能叫世界模型，那我直接别做传统视频模型了，做实时生成视频模型，然后就声称自己是世界模型公司得了呗。

于是爱诗、快乐生蚝之流都把世界模型当配货给震撼首发了。

对吧，而且老百姓根本也不知道世界模型应该是啥样，谁先做出来哪怕是一坨也能抢占话语权。

第三阶段：有些邪恶的奋斗逼（如Vivix）开始给这种实时生成视频模型找应用场景了。

比如虚拟陪伴虚拟直播，所以别的蹭世界模型的公司也没法纯靠不明所以的demo骗钱了，都得开始假装思考消费者需求了，都得开始把自己包装成数字人公司了。

近几个月此类公司不约而同批量涌现啊。

比如最近大力炒作的10人00后团队猫薄荷（Catnip）做的缅因猫（MaineCoon），声称自己做了个「史上最快流式音视频社交模型」，我以为终于有个不炒世界模型概念的了。

结果点进官网一看，人家直接宣布自己发明了一种全新的世界模型——社交世界模型。

世界模型走了一些弯路

你们这么造词也太累了，以后直接叫第一世界模型、第二世界模型、第三世界模型得了。

我去查了下，猫薄荷这团队去年底还在做AI视频互动产品（这大概就是社交大模型这个词的来历），思考的还是怎么低成本获客，怎么今年趁着世界模型风摇身直接有训练模型能力了？

现在怎么拿开源框架做个后训练就说自己是世界模型，这风气到底谁开始带的？

造词还不是最封神的，它们还自己造了个基准测试叫SocialVideo Bench，然后自己拉了个榜单，宣布自己取得了第一名。

世界模型走了一些弯路

自己办比赛自己当裁判然后自己进球，建议男足学学，明年咱们也办场世界杯。

这招其实我们的好朋友马卡龙也干过。

马卡龙花大力气搞的Macaron-V1-Preview，实际上是给GLM 5.1后训练加了5个Lora。刚好和他们跑的基准测试挨个对应。

然后下图马卡龙自己跑出来自己第一的4个Bench里，前两个都是马卡龙自己做的。

世界模型走了一些弯路

不知道该说啥了，AI应用转模型原来是这么一回事。

那歌怎么唱来着～听说你还在搞什么原创，搞来搞去好像也就这样～

不过也无所谓了。智谱现在这么火，纯做贴牌代工厂，给大客户搞GLM 5.2后训练不出意外能爆到大金币。你知道的，我们一直相信马卡龙很牛逼❤️

回到主角，我们直接来测测MaineCoon到底有没有东西。

MaineCoon现在主要有两个功能。首先是Instant Video，主打传统的AI视频生成，但特点是快。他们团队的人非常自信，直接在这个功能后面加了个Fast&SOTA的标识。

世界模型走了一些弯路

我用了一下确实特别快，生成一个20秒的视频，基本只需要8～9秒。可以说在Fast这个赛道确实SOTA了。

但在Fast之外，这些视频都不具备使用价值。

比如我输入了一段提示词：世界杯赛场上日本队和巴西队踢球，一个身穿蓝色球衣的日本队队员射门射进了，穿国旗衫的巴西守门员抱头痛哭，看台上穿和服的日本球迷一边跳舞一边庆祝。

成品如下⬇️

世界模型走了一些弯路

可以看出，MaineCoon属于塔可夫斯基入脑了，只会拍长镜头不会分镜，人物主体的动作也不会变化，基本只体现氛围感。

而且整个画面里只有主人公是相对清晰的，背景里的人物全都量子化了，不知道的以为三体人提前打来了，非常恐怖。

所以作为视频模型而言，MaineCoon没啥可聊的，就是比较快，但快也不能当饭吃。

但它还有第二个功能，也就是处于Beta阶段的流式视频生成。使用方法和之前测过的Pixverse、7verse差不多，先生成一个场景，然后通过输入提示词实时改变画面。

世界模型走了一些弯路

分为Control Mode和Chat Mode两个模式

Control Mode就是当导演，Chat Mode就是找陪聊。我先用Control Mode让它生成了一个外卖小哥跑外卖的场景，然后中途让车撞他、车主打他、警察逮捕他，最后一起吃饺子，

成品如下⬇️

世界模型走了一些弯路

画面质量上，和视频生成的问题一样，全是量子人，全是粒子特效，有一种做梦的感觉。

反应速度上，输入一段指令后，也基本是在10秒左右之后对画面进行改变，和之前测过的世界模型差不多，中规中矩吧。

不过MaineCoon生成的世界里，角色还真有点逻辑上的一致性，会根据发生的事件改变之后场景、行为和语言。这确实比之前只有七秒记忆的世界模型强。

最后我又测了一下Chat Mode，让它生成一个年轻的狼人帅哥跟我谈恋爱，弥补某乙游下架某男主的遗憾。

结果大半夜差点把我吓晕啊⬇️

世界模型走了一些弯路

MaineCoon生成的角色不知道为啥，会持续缓慢地向屏幕这边凑，可能是想亲我。反正脸就越来越大，嘴巴越来越多，伊藤润二来了都得找个出马的压压惊。

但这确实是MaineCoon三个功能里最能想象到商业化应用场景的那个了：

Instant Video固然快，但Seedance也出mini了；

Control Mode比别的实时生成视频项目耐看，但这玩意真能助力具身或预测未来吗；

唯有Chat Mode，虽然生成的角色都快赶上恐怖片boss了，但万一有人的xp就不是人呢？

神了，这流式生成视频要不直接改名叫刘氏生成视频得了，反正都是跟刘宇抢业务。

当然矬子里拔大个，MaineCoon已经是最近这个赛道炒作得比较成功的了，让我们看看它的对手：

世界模型走了一些弯路

没错，伟大的生数在我们发完道歉信后，终于不研究什么龙虾人了，开始研究正经福瑞了。

这实时交互模型，放别人家肯定也直接叫世界模型了。但生数毕竟已经开始做物理向的世界模型Motus了，可能没必要在这也蹭蹭了。

我和他们放在首页的角色「狐妖玉宝」聊了一下，剪辑后的成品如下⬇️

世界模型走了一些弯路

生数这个比MaineCoon强的是，可以打开摄像头和屏幕里的角色面对面聊，不用打字，说话就行。

而且屏幕里的角色确实能看到你的动作，be like：

世界模型走了一些弯路

我问她这是几，她说是三

然而这种对用户的观测是需要通过指令触发的，比如我后来啥也不说，纯手舞足蹈了一会，姐们就一点反应都没有，跟个死人一样。

然后生数应该是为了避免像MaineCoon一样人物乱动吓到观众的情况，对角色做了硬性规定：原地站着不动，眼睛死死盯着用户。

所以当我要求她跳个舞的时候，她在那自己像念经一样喃喃自语：轻轻晃肩、转圈、摆动手臂……把提示词给朗诵出来了。

所以当我要求她转个圈的时候，她说：不行，因为我要一直看着你……

👁️👄👁️小姐姐在看着你Little sister is watching you 👁️👄👁️

我建议直接改名伪人模拟器上架Steam得了。

我觉得MaineCoon Chat Mode和Vidu S1作为虚拟陪伴产品最致命的问题有两个：

第一，10秒的延迟在视频生成这个赛道完全能当个卖点，但当用户的需求是唠嗑，就显得太前现代了。都谈人机恋了，谁能接受对面过了10秒才回复你啊？

第二，这俩产品的对话体验还是半双工，类似对讲机，你说一句她说一句，你打断她她也不闭嘴，完全就是小爱同学水平，非常不尊重用户。

不理解以上两点的可以给豆姐打个电话，纯聊日常话题的话，基本是秒听秒回，而且可以随时打断。

豆姐率先一步启动边说边监听的全双工模型了，而ChatGPT目前是支持中途打断的半双工，最近也开始内测全双工了，这是大势不可逆。

低延迟反应快的细糠吃多了，谁能受得了粗粮啊？

当然，MaineCoon Chat Mode、Vidu S1以及其他实时视频生成产品做不到这些也情有可原：除了处理音频信息之外，哥几个还得处理视频信息，什么口型啊什么人物动作啊都得纳入思考，耗时耗力耗token。

但真有必要吗？

你们现在做的这玩意，动也不动，转身也不会，场景也不变，本质上不就是数字人vtuber吗？

那何必走流式视频的技术路径呢，你们直接把钱投到AI 2.5D建模，做100个皮套，再把豆包的语音模型插进去，直接对口型不就完事了？

这使用体验绝对比现在这些世界模型好。

在类似路线上，字节有OmniHuman，快手有Kling-Avatar，蔡浩宇团队都整了个LPM 1.0骄傲地声称已达到全双工无限流水平，说明只要不硬贴世界模型大家都有美好的未来。

这世界模型本没有路，走的公司多了就有了一条弯路，然后创业者都开始走这条弯路，走着走着都忘了两点之间线段最短了。

可怜呐。

最后插播一条幽默新闻。

100年没有新消息的虎牙，最近突然开始搞AI，倒腾出一个叫VAM 1.0的数字人模型。

世界模型走了一些弯路

任谁都能看出来这是个些许过时的缓解焦虑用的向上汇报产品，但它仍然比那些流式生成的数字人有更强的观赏性和可用性。

那还能说啥呢，兄弟们回头是岸吧，骗投资人可以骗AI媒体小编也可以别把自己骗了。

如果真有AI陪伴理想，不如趁现在赶紧把公司卖了，买几台硅胶机器人，研究研究怎么把Grok装它们嘴里得了。

（本文封面由ChatGPT 生成，纯人工写作，顺便点个歌吧）

文章来自于微信公众号 “葬AI”，作者 “葬AI”

关键词: AI新闻 , 世界模型 , 人工智能 , AI , MaineCoon

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales