数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开
8118点击    2026-05-30 10:06

最近 MiniCPM5-1B 这个模型很火,是一款端侧模型,参数量只有 1B。


端侧模型出货量最大的就是阿里 Qwen 了,还有 Google Gemma 和微软 Phi ,都是端侧模型玩家。这几天不少家人们都刷到了面壁智能的 MiniCPM5-1B ,用 1B 参数干出了 2B 的效果。


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


这个模型在 Artificial Analysis-Index 上成绩是 17.9 分,把 2B 级的 Qwen3.5-2B(16.3)和一众同级对手都比下去了,而且 INT4 量化后权重只有 0.5GB 。


我看到很多人都在分析:它到底为什么这么强?


有人说是训练框架牛(ForgeTrain),AI 自己写代码训练自己,也有人讨论是端侧优化技术做得好,仅 0.5GB 就能跑起来。


但是,没有人聊过另一个因素——数据。


我反而觉得,数据才是小模型逆袭的关键。


因为到 1B 这个体量,模型的容噪能力几乎是零,数据多了没用,数据脏了反有大毒。


我去搜了下 MiniCPM5-1B 的数据,发现面壁智能刚刚把背后的核心数据集给开源了。


一共是两份 L3 级数据集:


1.Ultra-FineWeb-L3 :600B tokens,中英文都有,是目前最大的中文开源合成预训练数据集。


2.UltraData-SFT-2605 :千万级的后训练核心数据,覆盖数学/代码/知识/指令,同时覆盖深思考和非思考。


UltraData 网站:

https://ultradata.openbmb.cn


HuggingFace 主页:

https://huggingface.co/collections/openbmb/ultradata


Ultra-FineWeb-L3:

https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3


UltraData-SFT-2605:

https://huggingface.co/datasets/openbmb/UltraData-SFT-2605


好多人不了解什么是 L3 级。所以开始前,有必要先了解下 UltraData 数据治理的分级体系。


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


L0 是从网上扒下来的生肉网页,L1 做基础清洗去重,L2 用模型打分后挑出来好的数据。


到这一级为止,都还是在筛选数据的阶段,从 L3性质开始变了。


L3 用大模型把数据重新加工一遍,做数据合成与增强,比如把一篇普通网页改写加工成问答对、百科文档等多种形式,都是高质量形态。


这一层对小模型来说非常关键。


因为 1B 大小的话,容噪能力几乎为零,L1、L2 中也是有很多知识,但是小模型不一定能靠自己把知识从里面提取出来。


L3 这层的做法就是把知识提纯、凝练后再喂给模型,让模型吸收的更好。


Ultra-FineWeb-L3 :预训练最后一程的高纯度数据


先说 Ultra-FineWeb-L3 ,用于预训练的退火阶段。


预训练分为两个阶段:稳定训练(stable training)和退火训练(decay training)。


稳定训练用大学习率跑大量数据,建立基础能力;退火阶段在训练末期把学习率快速降下来,同时换上更高质量的数据,让模型在最后阶段冲刺。


退火阶段就是模型预训练的最后一程,这时候喂什么数据对模型的最终性能影响最大—Ultra-FineWeb-L3 就是专门用在这个阶段的。


Ultra-FineWeb-L3 种子数据来自他们之前做的 Ultra-FineWeb( L2 层),总量是 600B ,英文占了 400B多,中文占 200B 多。


这 200B多的中文数据是目前全国规模最大的开源预训练合成数据


在这个基础上,面壁用 MiniCPM4 和 Qwen-30B-A3B 两个模型做了两件事:


(1)问答对生成


把一篇陈述性网页拆改写成【原始文本 + 多个问答对】,强迫模型理解知识的结构和关联。


(2)多风格改写


同一段内容,分别用百科、教科书、博客、摘要四种风格重新写一遍。这个思路其实不复杂,但很有效。


为了验证 L3 层数据的效果,团队做了一组对比实验:


统一用 MiniCPM-1.2B 架构,从 0 开始只训练 100B tokens,只换数据集,看最终模型性能差多少。


他们把 Ultra-FineWeb-L3 跟业界目前顶流的数据集放在一起跑,包 括 FineWeb-edu、DCLM。


  • 英文赛道上 Ultra-FineWeb-en 及其 L3 版本表现最优,在训练后期直接拿到了全场最高分。
  • 中文赛道差距更加明显,L3 的领先幅度随着训练推进越来越大,训练越久,L3 数据的优势越突出。


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


总之,L1→L2→L3 在英文和中文上都是逐级提升的。


UltraData-SFT-2605:国内首份同时覆盖「深思考+非思考」双模式SFT 数据


SFT 的数据一直以来都是厂里藏着掖着的宝贝。


面壁智能这次开源的 UltraData-SFT-2605 算是国内首次开源千万样本级的 SFT 训练数据,其中数据覆盖了数学、代码、知识、指令遵循等领域。


为了更好地应对现实场景,UltraData-SFT-2605 在每个领域、难度级别都分别构建了两种规格的数据:


  • 非思考数据:用来应对需要快速响应的场景,强化模型的直接回答能力。
  • 深思考数据:带完整推理链的,主要应对复杂任务场景,提升模型的推理、规划与验证能力。


国内之前开源的 SFT 数据,要么只有普通指令,要么只有思维链,两种模式同时覆盖而且覆盖面全的大规模混合思考 SFT 数据集,这是第一份。


而且,研究团队还发现,即便是同属于 L3 级别的数据,在问题价值、回答质量和防污染风险上也参差不齐。


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


因此,为了进一步确保进入最终训练的数据绝对干净且有效,研究团队又引入 SFT 数据的治理流水线:


(1)筛选:只保留意图清晰、有挑战性且覆盖面广的好数据。


(2)定制式训练:缺啥补啥,根据特定能力去定向构建,比如知识类的构建要基于考点来针对修改。


(3)喂高密度素材:引入教科书、Wiki 这些高信息密度的 L3 数据,增强知识组织和泛化能力。


(4)查逻辑:去审查深度思考数据的推理过程,确保其推理过程是能教会模型如何拆解和验证问题。


(5)试跑:用小预算(20B Tokens)+ A/B test 快速试错,用实际收益倒推出最佳数据配方。


(6)剥离测试集痕迹:确保模型提升源于真实的数据质量,而非偷偷背题。


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


通过数据流水线的重构与提纯,UltraData-SFT-2605 彻底褪去数据中的杂质,成为高纯度的训练燃料。


MiniCPM5-1B 的数据怎么炼?


那么问题来了!


在 MiniCPM5-1B 的炼丹炉里到底是怎么炼数据的?


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


我看了 MiniCPM5-1B 的训练管线,发现它的训练管线采用了四级数据递进策略 :


  1. L1 塑形:用基础过滤的数据打下语言和常识地基
  2. L2 拔高:用精筛数据去提升专业能力
  3. L3 激活:用合成数据激发复杂推理能力
  4. 对齐出关:SFT + RL + OPD,完成最终打磨"


端侧,数据才是真壁垒


再回到开头的问题:1B 凭什么打赢 2B ?


因为在面壁的字典里,竞争的焦点早已不是参数,而是智能密度。


在 2024 年提出“密度定律”(Densing Law)—智能密度每 100 天翻一倍后,面壁智能一直坚持不做最大的模型,而做最高效的模型。


从数据治理、训练算法到架构设计,再到推理、量化与端侧部署,构建了完整一整条全栈式的高知识密度的生产线。


到了端侧这个体量,模型架构大家都差不多,算力也就那么点,真正能拉开差距的就是数据质量。


看 MiniCPM 小钢炮在端侧模型的江湖地位,你就知道这条路完全可行。


数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开


如果换个角度看,会更清楚。


Llama、Qwen、Gemma 都在做端侧模型,权重都能免费下载,架构论文也是公开的。但是大家开源的都是模型,没人开源数据。训练数据怎么配的,数据处理细节是什么,都没有公布。


做过模型训练的人都有体感,工程师 70% 的时间都在数据清洗、标注和增强上。


模型架构可以抄,数据才是真壁垒。


端侧场景下这个问题更突出。


今年全球 AI 手机出货量预计突破 5 亿部,渗透率到了 35% ,甚至 Vivo、Oppo、华为国内几大手机厂商已经把端侧 AI 下放到了中端机和千元机,端侧 AI 几乎成了标配。


但实际做端侧 AI 的团队清楚,最难的不是找不到能跑的模型,1B、2B 的开源模型不少,而是找不到足够好的数据来训出一个在场景里真正能打的版本。


这次面壁联合 OpenBMB 社区不只是开源了数据集,整条数据炼法都公开了。从 L1 筛选到 L3 合成,怎么做、用什么模型做、每一步怎么验证。


对做端侧的团队,可以不用自己从零踩坑,直接在这条已经跑通的路上走即可,不管是手机厂商、车机团队还是做 IoT 的,都可以在这个基础上改。


在手机、PC、手表、汽车这些场景上,1B 和 2B 的体验差距,远没有数据质量带来的差距大。



文章来自于微信公众号 "夕小瑶科技说",作者 "夕小瑶科技说"

AITNT-国内领先的一站式人工智能新闻资讯网站