
MFU超30%,算子效率提升14%。
智东西5月28日消息,近期,深圳河套学院(SLAI)AI训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳大数据研究院、华为GTS(全球技术服务)团队与深智城AI算力平台,仅用1个月,共同基于昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续训练/SFT稳定运行,完成长稳训练1500+步,训练MFU超30%,关键训练算子效率提升14%。
据公开资料,本工作是公开可查范围内业界首个由第三方机构基于国产算力集群完成的DeepSeek-V4-Pro全参数后训练工程实践。
深圳河套学院于2025年9月正式揭牌,其并非传统意义上的大学,而是教育部部署建设的国家级人工智能拔尖创新人才培养试验区,与中关村学院、上海创智学院并列为三大AI国际级学院。
DeepSeek-V4-Pro
在昇腾集群完成全参数训练
MFU稳定达34.9%
DeepSeek-V4-Pro是1.6万亿参数级MoE开源旗舰模型,采用DeepSeek MoE稀疏混合专家结构,模型架构引入了CSA+HCA混合稀疏注意力、mHC连接等新机制。相较于DeepSeek-V3/R1等上一代旗舰MoE模型,DeepSeek-V4-Pro对国产训练框架、混合并行、专家通信、算子效率、显存管理和长稳训练能力均提出挑战。
经过联合攻关,团队目前已实现DeepSeek-V4-Pro在国产算力集群上的全参数训练稳定运行。同时,DeepSeek-V4-Flash的全参数续训练与SFT链路也已同步打通。

▲DeepSeek-V4-Pro@昇腾超节点训练,MFU最终稳定在34.9%
另外,该项目还验证了训练平台在垂直领域模型能力构建上的实际价值。团队围绕工业级自动化运筹建模场景,利用专业领域数据,在数周内完成从数据生产、样本筛选、训练链路打通到效果评测的闭环验证,以较短周期和较低试错成本构建了面向垂直专业任务的模型增强能力。
据公开资料,目前业界披露的DeepSeek V4国产算力进展,主要集中在V4-Pro推理适配、V4-Flash训练参考实现及通用框架适配,尚未有第三方机构在国产算力集群上完成DeepSeek-V4-Pro全参数续训练/SFT稳定运行的公开信息。
因此,本工作可视为公开可查范围内,业界首个由第三方机构完成的国产算力集群DeepSeek-V4-Pro全参数后训练工程实践。
双场景稳定收敛
微调后四项指标均超原模型
本次攻关面向DeepSeek-V4-Pro全参数训练链路验证,区别于LoRA、Adapter等少量参数微调,重点验证1.6万亿参数级MoE模型在国产算力集群上的端到端训练可行性、稳定性和效率提升空间。
联合团队形成了4类关键能力:
一是1.6T MoE模型权重、梯度、激活、优化器状态的分布式承载能力;
二是数据并行、张量并行、流水并行、专家并行协同的混合并行能力;
三是面向长稳训练的loss、梯度、专家负载、显存和异常恢复监控能力;
四是混合稀疏注意力、MoE路由、归一化、矩阵计算等关键训练算子的适配优化能力。
本次攻关以工业级自动化运筹建模场景作为后训练验证任务。该场景对模型复杂推理、符号表达、长链路规划、工具调用和结果校验能力要求较高,能够检验DeepSeek-V4-Pro在全参数后训练过程中的收敛稳定性、基础能力保持情况和复杂任务适配潜力。
为了进一步验证DeepSeek-V4在昇腾集群上进行后训练的能力,本项目设计了大模型增强专业数学建模能力的训练实验,搭建了一条SFT建模数据生产workflow,产出了3000条高质量数学建模任务SFT样本,覆盖了4类目标任务和3种问题形态。

基于上述workflow生成的数据,联合团队对DeepSeek-V4进行了后训练,相应曲线如下图:

可以看出,LM loss和MTP-1 loss在训练前半段快速下降,最终LM loss收敛至0.2056,MTP-1 loss收敛至0.2538;梯度范数也从训练初期高位逐步下降,没有出现持续放大或loss失控。单步耗时整体稳定在27秒左右,skipped iterations和NaN iterations均为0。
本项目将原参数模型与本方法微调后模型在主流建模能力Benchmark下进行观察对比:

可以看到,DeepSeek-V4模型经后训练,在4项关键指标上均显著超过原模型。其中ORGEval的提升尤其明显,进一步说明了DeepSeek-V4在国产算力集群上进行后训练的可行性。
42名学生参加
从真实训练场景提升技术能力
本次攻关也是河套学院训练平台型人才培养体系的一次集中实践。不同于传统课程式训练,本项目以万亿级模型训练攻关为牵引,把学生培养直接嵌入国产算力真实训练场景。
截至目前,项目已组织培养学生42名,形成了由青年教师指导、博士生核心攻坚、工程团队支撑的协同培养机制。
在这一过程中,同学们不只是参与项目进展,而是围绕真实问题承担具体任务:有的负责训练数据构造和样本质量分析,有的负责分布式训练配置与并行策略验证,有的跟进训练稳定性监控和异常恢复,有的负责模型评测、技术报告和工程文档沉淀。
一次次训练启动、报错定位、参数调整和结果复盘,都使同学们能够直接理解超大模型训练中模型结构、算力系统、通信效率、显存管理和训练稳定性之间的复杂关系。
通过这种培养方式,学生能力提升体现在3个方面:
一是建立了对国产算力大模型训练全链路的系统性认识;
二是掌握了从领域数据到模型能力增强的全过程能力;
三是在真实项目中形成了问题拆解、实验设计、训练复盘和团队协作能力。

▲项目团队开展技术复盘与学生实战培养
未来进一步优化训练算子
同步推进工程沉淀与AGI基础研究
下一阶段,深圳河套学院将继续联合哈尔滨工业大学(深圳)、深圳大数据研究院、华为GTS(全球技术服务)团队和深智城相关团队,在现有全参数续训练/SFT链路基础上,重点推进3项任务:
一是持续优化训练框架和关键训练算子,进一步提升训练效率(MFU);
二是支撑512K至1M超长上下文训练,提升复杂专业任务中的长文档理解和长链路推理能力;
三是进一步突破DeepSeek-V4-Pro强化学习后训练技术,围绕数学建模优化、代码Agent、长上下文推理等任务,构建rollout生成、工具执行、reward/verifier、策略更新和评测反馈闭环,形成从SFT到Agentic RL的完整后训练链路。
后续,项目将同步推进技术开源与人才培养沉淀:一方面形成可复现的技术报告和开源工程实践,分阶段开放训练配置、评测脚本、合成数据、技术报告及相关模型与框架能力;另一方面,将项目中的真实训练任务、数据构造方法、故障排查案例和评测流程转化为课程案例、实训任务和学生科研项目;同时基于此训练场,开展新一代通用人工智能的基础理论、新范式和新架构的研究。
研究团队还将继续研究新一代通用人工智能的科学范式、基础理论、工作机理、可解释性、持续学习、记忆学习、智能体理论等基础科学技术问题,研究符号、连接和行为主义有机融合的人工智能新框架,力图对信息世界、物理世界和人类社会,从单一智能体到群体智能到人机融合进行有效建模。
文章来自于微信公众号 "智东西",作者 "智东西"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner