MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law
7616点击    2025-12-22 16:02

2025 年还有一周结束,年底,AI 视频圈又卷起来了。


今天我在 HuggingFace Daily Paper 上刷到一篇论文,vote 还很高,排到了当天第三名,仔细一看标题,讲的是视觉生成,作者竟然来自熟悉的老朋友 MiniMax。


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


论文地址:https://arxiv.org/html/2501.09755v1


顺着扒拉能看到,这个技术搞成开源的了。


熟悉的朋友都知道,MiniMax 今年已经是开源狂魔了,1 月开源 MiniMax-01,6 月开源 M1,11 月开源 M2…… 但有一个现象级产品,他们从来没开源过技术。


他就是海螺视频。


这次破天荒地开源了底层技术 ——「VTP(Visual Tokenizer Pre-training)」,是一个视觉分词器预训练框架。


更值得注意的是,论文里强调的一个发现:他们在 AI 视觉生成领域找到了 Scaling Law (缩放定律)。


在大语言模型领域,Scaling Law 早就是共识了,砸更多算力、数据、参数,模型就会变更强。


但是,在视觉生成领域一直没有找到这个规律。


而这,也是我第一次了解到,业内还有个广泛的 “悖论”——


视觉分词器(第一阶段)砸再多钱,生成模型(第二阶段)也不会变好,甚至还会变差。。


什么意思?


现在主流的视频生成模型像 Sora、海螺、可灵都是两阶段架构:


  • 第一阶段:视觉分词器(Visual Tokenizer,通常是 VAE),把图像压缩成低维表示;
  • 第二阶段:扩散模型(Diffusion Model),在这个低维空间里生成新内容。


按理说,第一阶段训练得越好,第二阶段应该效果越好才对。但实际情况却很诡异。。论文里展示了一组实验数据:


传统做法是,随着训练算力增加,重建质量(rFID)从 2.0 降到 0.5,越来越好。但是生成质量(gFID)却从 55.04 升到 58.56,反而变差了。就像你花大价钱买了顶级食材,但是做出来的菜更难吃了。


(加粗的两个概念很重要,请记住)


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


就因为这个悖论,才导致了在视频生成领域,砸钱训练视觉分词器 = 打水漂。


所以之前大家都放弃治疗了,第一阶段随便训练一下,把主要精力放在第二阶段的扩散模型上。


海螺怎么破局的?


海螺这次反其道而行之,把精力放在了第一阶段 —— 视觉分词器预训练上。


而且还解开了一个困扰行业多年的问题 —— 第一阶段的视觉分词器终于展现出了 Scaling Law。


请看这张图 ——


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


横轴是训练算力(GFLOPs),纵轴是生成质量 gFID(数值越低越好)。


灰色线代表传统的 Auto-Encoder,它几乎是一条水平线,即使算大扩大 10 倍,但是 gFID 基本没变,稳定卡在 55-58 之间。这就是之前说的 “打水漂” 现象。


但绿色线完全不一样。VTP 的曲线从左上角的 80 多,一路清晰地下降到右下角的 27 左右。


同样是扩大 10 倍算力,传统方法几乎没收益,而 VTP 能获得 65.8% 的性能提升。


这个数字可太关键了。它意味着投入和产出之间终于有了相对可预测的对应关系。


而且,scaling 不只体现在算力这一个维度。


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


左边是参数缩放 Parameter Scaling。传统 AE 的三条蓝色线 (Small/Base/Large) 几乎重叠在一起,无论模型大小,性能都卡在 57 上下,完全没有分层。而 VTP 的三条绿色线则清晰地分开了,肉眼可见地下降。


右上角是数据缩放 Data Scaling。AE 从 10 万数据训练到 1 亿数据,gFID 只从 58.37 微降到 56.71,几乎可以忽略。而绿色线则从 47.59 大幅下降到 27.45—— 数据越多,效果提升越明显。


右下角是训练过程的 scaling。蓝色线 AE 在 5B GFLOPs 之后就完全平了,而绿色线一路从 81 持续降到 27。


这三张子图放在一起,传达的信息非常明确了。


VTP 在算力、参数、数据三个维度上都展现出了显著的 scaling 特性。


这三组实验里第二阶段的扩散模型训练配置完全相同,所以改进都来自第一阶段视觉分词器的预训练。


所以不是第一阶段不能 scaling,而是方法不对。


那 VTP 是用了什么方法才有了 scaling 呢?为什么传统方法不行。


原因在于海螺团队发现了一个有意思的规律:


理解力是驱动生成的关键因素。


论文里有张图 ——


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


横轴表示理解能力,数值越高,说明模型越懂图像的语义。纵轴是生成质量 gFID,这里做了个 reversed 处理,所以数值越高代表生成越好。


灰色代表传统 AE,全部挤在左上角,意思就是理解和生成都停滞了。


绿色的点则相反地形成了一条漂亮的斜线,从左下角一路上扬到右上角 —— 理解能力从 20 多飙升到 70 多,生成质量也同步大幅改善。


这条斜线揭示了一个关键规律:理解能力和生成能力几乎是完美的正相关。


你让模型更 "懂" 图像,它就能生成得更好。反过来,如果只追求重建不追求理解,理解能力上不去,生成能力也永远卡在那里。


so,海螺在训练过程中注入了「理解」这个维度。也是整篇论文最核心的技术方法。


这里不得不提一下,之前的视觉分词器几乎只被要求做好一件事:重建。


就是给它一张图,它把图压缩,再尽可能一模一样地还原出来。还原得越像,loss 越低,训练就越成功。


所以你能感觉到,图像生成的分辨率越来越高,纹理越来越干净,边缘越来越锐利,连头发丝都越来越逼真。


但是这种训练目标,会悄悄把模型的注意力,全部引向低层细节(纹理、边缘、噪点、色块变化、像素之间的微小差异)。


这些东西,对 “还原一张图” 很重要,但对 “生成一段有意义的视频”,现在这个阶段,并没有那么重要了。


现在生成模型需要的是另一类信息:


这是一个人,他在跑,动作从左到右连续变化,背景是花园,这是一个 “跳跃” 的动作....


这些都是语义级、结构级的信息,而传统的重建训练,并不会主动去保留它们。


海螺在 VTP 里,让视觉分词器不仅学重建,还学理解。


因为设计了一个三管齐下的训练方案,整体架构可以就是这张图。


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


策略上做了三个 loss 的联合优化:


1.重建任务 (Reconstruction)


保留传统的图像压缩 - 还原训练,图像 → 编码 → token → 解码 → 像素还原,确保 latent 空间依然能稳定对应真实世界,保证基础质量。


2. 图文对比学习 (CLIP)


让模型学习图像和文本的语义对齐 —— 比如一只猫在草地上,这段文字和对应图像要在语义空间里靠近。这逼着模型去理解语义而不只是像素。


3. 自监督学习 (SSL)


包括两个技巧:


  • 掩码图像建模 (MIM):遮住图像的一部分,让模型预测被遮住的内容。和 NLP 里的掩码一个道理。
  • 自蒸馏 (Self-distillation):让模型的不同视角保持一致理解


这三个任务联合训练,逼着视觉分词器学会既能重建细节,又懂高层语义。


实际效果如何?论文也给出了详细的 benchmark:


MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law


从结果来看,VTP-L(Large 版本)是少数几个在“理解、重建、生成”三项指标上同时交出成绩的模型


在理解能力上,VTP-L 的 ImageNet zero-shot 达到 78.2,Linear Probe 达到 85.7,已经接近部分主流判别式视觉模型。而这在过去几乎不会发生在一个 tokenizer 身上。


最后说一点:


大家都在盯着 Sora 2、可灵 2.6、Seedance 1.5 这些应用层的更新——更长的视频、更高的分辨率、音画同步,很重要。


但是技术革新更重要。否则没了地基,其他免谈。


Minimax 这篇论文不只适用于视觉生成,对整个多模态 AI 都有启发。模型不只是要完美还原,也需要语义级的深度理解。


海螺这次开源了完整的模型权重、训练代码和详细技术报告。


Codeshttps://github.com/MiniMax-AI/VTP


Paperhttps://arxiv.org/abs/2512.13687v1


以后第一阶段的 tokenizer 也不再是「拿来主义」,可以做更深入的研究。从这个角度看,VTP 的开源可能比某个新视频模型的发布更有长期价值。


文章来自于“夕小瑶科技说”,作者 “夕小瑶编辑部”。

AITNT-国内领先的一站式人工智能新闻资讯网站