最近 MiniCPM5-1B 这个模型很火,是一款端侧模型,参数量只有 1B。
端侧模型出货量最大的就是阿里 Qwen 了,还有 Google Gemma 和微软 Phi ,都是端侧模型玩家。这几天不少家人们都刷到了面壁智能的 MiniCPM5-1B ,用 1B 参数干出了 2B 的效果。

这个模型在 Artificial Analysis-Index 上成绩是 17.9 分,把 2B 级的 Qwen3.5-2B(16.3)和一众同级对手都比下去了,而且 INT4 量化后权重只有 0.5GB 。
我看到很多人都在分析:它到底为什么这么强?
有人说是训练框架牛(ForgeTrain),AI 自己写代码训练自己,也有人讨论是端侧优化技术做得好,仅 0.5GB 就能跑起来。
但是,没有人聊过另一个因素——数据。
我反而觉得,数据才是小模型逆袭的关键。
因为到 1B 这个体量,模型的容噪能力几乎是零,数据多了没用,数据脏了反有大毒。
我去搜了下 MiniCPM5-1B 的数据,发现面壁智能刚刚把背后的核心数据集给开源了。
一共是两份 L3 级数据集:
1.Ultra-FineWeb-L3 :600B tokens,中英文都有,是目前最大的中文开源合成预训练数据集。
2.UltraData-SFT-2605 :千万级的后训练核心数据,覆盖数学/代码/知识/指令,同时覆盖深思考和非思考。
UltraData 网站:
https://ultradata.openbmb.cn
HuggingFace 主页:
https://huggingface.co/collections/openbmb/ultradata
Ultra-FineWeb-L3:
https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3
UltraData-SFT-2605:
https://huggingface.co/datasets/openbmb/UltraData-SFT-2605
好多人不了解什么是 L3 级。所以开始前,有必要先了解下 UltraData 数据治理的分级体系。

L0 是从网上扒下来的生肉网页,L1 做基础清洗去重,L2 用模型打分后挑出来好的数据。
到这一级为止,都还是在筛选数据的阶段,从 L3性质开始变了。
L3 用大模型把数据重新加工一遍,做数据合成与增强,比如把一篇普通网页改写加工成问答对、百科文档等多种形式,都是高质量形态。
这一层对小模型来说非常关键。
因为 1B 大小的话,容噪能力几乎为零,L1、L2 中也是有很多知识,但是小模型不一定能靠自己把知识从里面提取出来。
L3 这层的做法就是把知识提纯、凝练后再喂给模型,让模型吸收的更好。
先说 Ultra-FineWeb-L3 ,用于预训练的退火阶段。
预训练分为两个阶段:稳定训练(stable training)和退火训练(decay training)。
稳定训练用大学习率跑大量数据,建立基础能力;退火阶段在训练末期把学习率快速降下来,同时换上更高质量的数据,让模型在最后阶段冲刺。
退火阶段就是模型预训练的最后一程,这时候喂什么数据对模型的最终性能影响最大—Ultra-FineWeb-L3 就是专门用在这个阶段的。
Ultra-FineWeb-L3 种子数据来自他们之前做的 Ultra-FineWeb( L2 层),总量是 600B ,英文占了 400B多,中文占 200B 多。
这 200B多的中文数据是目前全国规模最大的开源预训练合成数据集。
在这个基础上,面壁用 MiniCPM4 和 Qwen-30B-A3B 两个模型做了两件事:
(1)问答对生成
把一篇陈述性网页拆改写成【原始文本 + 多个问答对】,强迫模型理解知识的结构和关联。
(2)多风格改写
同一段内容,分别用百科、教科书、博客、摘要四种风格重新写一遍。这个思路其实不复杂,但很有效。
为了验证 L3 层数据的效果,团队做了一组对比实验:
统一用 MiniCPM-1.2B 架构,从 0 开始只训练 100B tokens,只换数据集,看最终模型性能差多少。
他们把 Ultra-FineWeb-L3 跟业界目前顶流的数据集放在一起跑,包 括 FineWeb-edu、DCLM。

总之,L1→L2→L3 在英文和中文上都是逐级提升的。
SFT 的数据一直以来都是厂里藏着掖着的宝贝。
面壁智能这次开源的 UltraData-SFT-2605 算是国内首次开源千万样本级的 SFT 训练数据,其中数据覆盖了数学、代码、知识、指令遵循等领域。
为了更好地应对现实场景,UltraData-SFT-2605 在每个领域、难度级别都分别构建了两种规格的数据:
国内之前开源的 SFT 数据,要么只有普通指令,要么只有思维链,两种模式同时覆盖而且覆盖面全的大规模混合思考 SFT 数据集,这是第一份。
而且,研究团队还发现,即便是同属于 L3 级别的数据,在问题价值、回答质量和防污染风险上也参差不齐。

因此,为了进一步确保进入最终训练的数据绝对干净且有效,研究团队又引入 SFT 数据的治理流水线:
(1)筛选:只保留意图清晰、有挑战性且覆盖面广的好数据。
(2)定制式训练:缺啥补啥,根据特定能力去定向构建,比如知识类的构建要基于考点来针对修改。
(3)喂高密度素材:引入教科书、Wiki 这些高信息密度的 L3 数据,增强知识组织和泛化能力。
(4)查逻辑:去审查深度思考数据的推理过程,确保其推理过程是能教会模型如何拆解和验证问题。
(5)试跑:用小预算(20B Tokens)+ A/B test 快速试错,用实际收益倒推出最佳数据配方。
(6)剥离测试集痕迹:确保模型提升源于真实的数据质量,而非偷偷背题。

通过数据流水线的重构与提纯,UltraData-SFT-2605 彻底褪去数据中的杂质,成为高纯度的训练燃料。
那么问题来了!
在 MiniCPM5-1B 的炼丹炉里到底是怎么炼数据的?

我看了 MiniCPM5-1B 的训练管线,发现它的训练管线采用了四级数据递进策略 :
再回到开头的问题:1B 凭什么打赢 2B ?
因为在面壁的字典里,竞争的焦点早已不是参数,而是智能密度。
在 2024 年提出“密度定律”(Densing Law)—智能密度每 100 天翻一倍后,面壁智能一直坚持不做最大的模型,而做最高效的模型。
从数据治理、训练算法到架构设计,再到推理、量化与端侧部署,构建了完整一整条全栈式的高知识密度的生产线。
到了端侧这个体量,模型架构大家都差不多,算力也就那么点,真正能拉开差距的就是数据质量。
看 MiniCPM 小钢炮在端侧模型的江湖地位,你就知道这条路完全可行。

如果换个角度看,会更清楚。
Llama、Qwen、Gemma 都在做端侧模型,权重都能免费下载,架构论文也是公开的。但是大家开源的都是模型,没人开源数据。训练数据怎么配的,数据处理细节是什么,都没有公布。
做过模型训练的人都有体感,工程师 70% 的时间都在数据清洗、标注和增强上。
模型架构可以抄,数据才是真壁垒。
端侧场景下这个问题更突出。
今年全球 AI 手机出货量预计突破 5 亿部,渗透率到了 35% ,甚至 Vivo、Oppo、华为国内几大手机厂商已经把端侧 AI 下放到了中端机和千元机,端侧 AI 几乎成了标配。
但实际做端侧 AI 的团队清楚,最难的不是找不到能跑的模型,1B、2B 的开源模型不少,而是找不到足够好的数据来训出一个在场景里真正能打的版本。
这次面壁联合 OpenBMB 社区不只是开源了数据集,整条数据炼法都公开了。从 L1 筛选到 L3 合成,怎么做、用什么模型做、每一步怎么验证。
对做端侧的团队,可以不用自己从零踩坑,直接在这条已经跑通的路上走即可,不管是手机厂商、车机团队还是做 IoT 的,都可以在这个基础上改。
在手机、PC、手表、汽车这些场景上,1B 和 2B 的体验差距,远没有数据质量带来的差距大。
文章来自于微信公众号 "夕小瑶科技说",作者 "夕小瑶科技说"