DeepSeek V3到V3.2的进化之路,一文看全

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
DeepSeek V3到V3.2的进化之路,一文看全
7430点击    2025-12-08 12:48

12 月 1 日,DeepSeek 一口气发布了两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。


几天过去,热度依旧不减,解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读,其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。


DeepSeek V3到V3.2的进化之路,一文看全


机器之心编译了这篇深度技术博客,以飨读者:


DeepSeek V3到V3.2的进化之路,一文看全


  • 博客标题:A Technical Tour of the DeepSeek Models from V3 to V3.2
  • 博客地址:https://sebastianraschka.com/blog/2025/technical-deepseek.html


与 DeepSeek V3 的发布策略如出一辙,DeepSeek 团队再次选择在一个美国主要节假日周末发布了他们的新旗舰模型。


鉴于 DeepSeek V3.2 展现出了极佳的性能水平(在基准测试中对标 GPT-5 和 Gemini 3.0 Pro),加之它本身也是一个开放权重模型,这无疑值得重点关注。


DeepSeek V3到V3.2的进化之路,一文看全


图 1:DeepSeek V3.2 与专有旗舰模型之间的基准测试对比。来自 DeepSeek V3.2 报告 并加上了注释


我曾在文章《大型 LLM 架构对比》的开篇介绍过它的前身 ——DeepSeek V3。随着新架构的不断涌现,我在过去几个月里一直在持续更新那篇文章。


原本,我刚和家人度完感恩节假期回来,计划「只是」在原文章中增加一个新章节来简单介绍这次新发布的 DeepSeek V3.2。但随后我意识到,这次更新包含太多有趣的信息和细节,仅仅一个章节无法涵盖。因此,我决定将其写成一篇篇幅较长的独立文章。


他们的技术报告中涵盖了大量有趣的领域和值得学习的知识,让我们开始吧!


目录


1. DeepSeek 发布时间线


2. 混合推理模型与专用推理模型


3. 从 DeepSeek V3 到 V3.1


  3.1 DeepSeek V3 概览与多头潜在注意力 (MLA)


  3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)


  3.3 DeepSeek R1-0528 版本升级


  3.4 DeepSeek V3.1 混合推理


4. DeepSeek V3.2-Exp 与稀疏注意力机制


5. 采用自我验证与自我修正的 DeepSeekMath V2


  5.1 自我验证


  5.2 自我修正


6. DeepSeek V3.2 (2025 年 12 月 1 日)


  6.1 DeepSeek V3.2 架构


  6.2 强化学习更新


  6.3 GRPO 更新


  6.4 DeepSeek V3.2-Speciale 与扩展思维


7. 总结


1. DeepSeek 发布时间线


虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻引起轰动,但随后推出的 DeepSeek R1 推理模型(基于相同的架构,使用 DeepSeek V3 作为基础模型)改变了局面。它帮助 DeepSeek 成为了最受欢迎的开放权重模型之一,并成为了 OpenAI、Google、xAI 和 Anthropic 等公司专有模型的有力替代方案。


DeepSeek V3到V3.2的进化之路,一文看全


图 2:2024 年 12 月发布的 DeepSeek V3 和 R1 架构。我们将在稍后的章节中重温并讨论这些架构细节。


那么,自 V3/R1 以来有什么新变化吗?我相信 DeepSeek 团队今年一定非常忙碌。然而,自 DeepSeek R1 发布后的过去 10 到 11 个月里,并没有出现重大的版本发布。


就我个人而言,我认为花大约一年的时间来发布一个主要的 LLM 版本是合理的,因为这涉及海量的工作。然而,我在各种社交媒体平台上看到人们宣称该团队已经「凉了」。


最后,这并不代表他们什么都没发布。今年其实陆续有一些较小的发布,例如 DeepSeek V3.1 和 V3.2-Exp。


DeepSeek V3到V3.2的进化之路,一文看全


图 3:自去年以来的 DeepSeek 发布情况。主要模型以红色显示。


正如我在九月份所预测的那样,DeepSeek V3.2-Exp 的发布旨在为托管刚刚发布的 V3.2 模型准备生态系统和推理基础设施。


V3.2-Exp 和 V3.2 使用了一种非标准的稀疏注意力(Sparse Attention)变体,这需要定制代码,我们稍后会详细介绍这种机制。


2. 混合推理模型与专用推理模型


在进一步讨论模型细节之前,有必要先探讨一下整体的模型类型。最初,DeepSeek V3 是作为一个基础模型发布的,而 DeepSeek R1 则增加了额外的后训练,以开发成一个专用的推理模型。这一过程总结在下图中。


DeepSeek V3到V3.2的进化之路,一文看全


图 4:DeepSeek R1 训练流程概览


这里值得注意的是,DeepSeek V3 是基础模型,而 DeepSeek R1 是专用的推理模型。


在 DeepSeek 推进的同时,其他团队今年也发布了许多非常强大的开放权重推理模型。今年最强的开放权重模型之一是 Qwen3。最初,它是作为一个混合推理模型发布的,这意味着用户可以在同一个模型中切换推理模式和非推理模式。(在 Qwen3 的案例中,这种切换是通过分词器添加 / 省略标签来实现的。)


从那时起,LLM 团队发布了专用推理模型和指令 / 推理混合模型(有些团队甚至在这两者之间反复横跳),如下图的时间线所示。


DeepSeek V3到V3.2的进化之路,一文看全


图 5:今年发布的部分推理模型和混合模型的时间线。


例如,Qwen3 最初是混合模型。但随后,Qwen 团队分别发布了独立的指令(Instruct)模型和推理(Reasoning)模型,因为这两种模型开发起来更容易,且在各自的用例中性能表现更好。


有些模型(如 OpenAI 的 gpt-oss)仅提供混合变体,用户可以通过系统提示词(System Prompt)选择推理力度(我怀疑 GPT-5 和 GPT-5.1 也是类似的处理方式)。


而在 DeepSeek 的案例中,他们似乎反其道而行之,从专用推理模型(R1)转向了混合模型(V3.1 和 V3.2)。不过,我怀疑 R1 主要是作为一个研究项目,旨在开发推理方法和验证当时最好的推理模型。V3.2 的发布可能更多是为了开发针对不同用例的最佳整体模型。(在这里,R1 更像是一个测试平台或原型模型。)


我也猜想,虽然 DeepSeek 团队开发了具有推理能力的 V3.1 和 V3.2,但他们可能仍在开发专门的 R2 模型。


3. 从 DeepSeek V3 到 V3.1


在更详细地讨论新的 DeepSeek V3.2 发布之前,我认为先概述一下从 V3 到 V3.1 的主要变化会很有帮助。


3.1 DeepSeek V3 概览与多头潜在注意力 (MLA)


我已经在其他几篇文章中非常详细地讨论了 DeepSeek V3 和 R1。


总结一下要点,DeepSeek V3 是一个基础模型,它使用了两个值得注意的架构特性:混合专家模型(MoE)多头潜在注意力(MLA)


我想你此时可能已经对 MoE 非常熟悉了,所以我这里跳过介绍。


另一个值得注意的亮点是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1,它提供了一种节省内存的策略,特别适合与 KV 缓存搭配使用。MLA 的核心思想是在将键(Key)和值(Value)张量存储到 KV 缓存之前,先将它们压缩到一个低维空间中。


在推理时,这些压缩的张量在使用前会被投影回其原始大小,如下图所示。这虽然增加了一次额外的矩阵乘法,但显著减少了内存使用。


(顺便提一下,查询 Query 也会被压缩,但仅在训练期间,推理期间不会。)


DeepSeek V3到V3.2的进化之路,一文看全


图 6:DeepSeek V3 和 R1 中的多头潜在注意力 (MLA)。为简单起见,未显示查询向量的压缩空间。


上图阐述了 MLA 背后的主要思想:键和值首先被投影到一个潜在向量中,该向量可以存储在 KV 缓存中以减少内存需求。这需要稍后进行向上投影(Up-projection)回到原始的键 - 值空间,但总体上它提高了效率(类比一下,你可以将其想象为 LoRA 中的降维和升维投影)。


顺便说一句,正如前面提到的,MLA 在 DeepSeek V3 中并不是新事物,因为它的前身 DeepSeek V2 也使用了(甚至引入了)它。


3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)


DeepSeek R1 使用了与上述 DeepSeek V3 相同的架构。区别在于训练配方。即,使用 DeepSeek V3 作为基础模型,DeepSeek R1 专注于「带可验证奖励的强化学习」(RLVR)方法,以提高模型的推理能力。


RLVR 的核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码(但这当然也可以扩展到这两个领域之外)。


DeepSeek V3到V3.2的进化之路,一文看全


图 7:一个可验证任务的示例。


GRPO 算法,全称「群相对策略优化」(Group Relative Policy Optimization),本质上是「近端策略优化」(PPO)算法的一个简化变体。PPO 在用于 LLM 对齐的「带人类反馈的强化学习」(RLHF)中非常流行。


DeepSeek V3到V3.2的进化之路,一文看全


图 8:LLM 训练中强化学习设置的比较。传统的带 PPO 的 RLHF 使用奖励模型(基于人类偏好训练)和评论家(价值模型)来指导学习。GRPO 取消了评论家模型。带 GRPO 的 RLVR 更进一步,移除了奖励模型,转而依赖来自符号工具(如计算器或编译器)的可验证奖励。


3.3 DeepSeek R1-0528 版本升级


正如 DeepSeek 团队自己所述,DeepSeek R1-0528 基本上是一个「小版本升级」。


架构与 DeepSeek V3/R1 保持一致,改进主要在训练方面,以使其达到当时 OpenAI o3 和 Gemini 2.5 Pro 的水平。


遗憾的是,DeepSeek 团队没有发布任何具体信息来描述这是如何实现的;然而,他们表示这部分源于后训练流程的优化。此外,根据已分享的信息,我认为该模型的托管版本在推理时可能会使用更多的计算资源(即进行更长时间的推理)。


3.4 DeepSeek V3.1 混合推理


DeepSeek V3.1 是一个兼具通用聊天(指令)和推理能力的混合模型。也就是说,不再开发两个独立的模型,而是现在有一个模型,用户可以通过聊天提示模板切换模式(类似于最初的 Qwen3 模型)。


DeepSeek V3.1 基于 DeepSeek V3.1-Base,而后者又基于 DeepSeek V3。它们都共享相同的架构。


4. DeepSeek V3.2-Exp 与稀疏注意力机制


DeepSeek V3.2-Exp (2025 年 9 月) 开始变得更有趣了。


最初,DeepSeek V3.2-Exp 在发布时并没有霸榜基准测试,这也是为什么当时围绕这个模型的兴奋度不高的原因。然而,正如我在九月份推测的那样,这很可能是一个早期的实验性发布,旨在为更大规模的发布准备基础设施(特别是推理和部署工具),因为 DeepSeek V3.2-Exp 中有一些架构上的变化。更大的发布是 DeepSeek V3.2(不是 V4),这一部分稍后会详细介绍。


那么,DeepSeek V3.2-Exp 有什么新东西?首先,DeepSeek V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作为基础模型训练的。什么是 DeepSeek V3.1-Terminus?它只是上一节提到的 DeepSeek V3.1 检查点的一个小幅改进版。


技术报告指出:


DeepSeek-V3.2-Exp,一个实验性的稀疏注意力模型,它通过持续训练为 DeepSeek-V3.1-Terminus 配备了 DeepSeek 稀疏注意力 (DSA)。凭借由 Lightning Indexer 驱动的细粒度稀疏注意力机制 DSA,DeepSeek-V3.2-Exp 在训练和推理方面都实现了显著的效率提升,特别是在长上下文场景中。


如上段所述,这里的主要创新是他们在对 DeepSeek V3.1-Terminus 进行进一步训练之前,添加了 DeepSeek 稀疏注意力 (DSA) 机制。


这个 DSA 由 (1) 一个 lightning indexer 和 (2) 一个 Token 选择器(token-selector)组成,目标是有选择地减少上下文以提高效率。


为了解释它是如何工作的,让我们从滑动窗口注意力开始。例如,滑动窗口注意力这种技术(最近被 Gemma 3 和 Olmo 3 使用)会将注意力窗口限制为固定大小,如下图所示。


DeepSeek V3到V3.2的进化之路,一文看全


图 9:在滑动窗口注意力中,当前的查询 Token 不关注所有之前的 Token,而只关注一个子集。


DSA 基于与滑动窗口注意力相同的想法:只能关注一部分过去的 Token。然而,DSA 不是通过固定宽度的滑动窗口来选择可关注的 Token,而是拥有一个索引器和 Token 选择器来决定哪些过去的 Token 可以被关注。换句话说,可被关注的 Token 选择更加随机,如下图所示。


DeepSeek V3到V3.2的进化之路,一文看全


图 10:在 DSA 中,当前 Token 可以关注一组选定的过去 Token,而不是像常规因果注意力那样关注所有过去 Token。


然而,虽然我上面说了「随机」,但选择哪些过去 Token 的模式实际上并不是随机的,而是学习得到的。


实际上,DSA 使用其所谓的 lightning indexer 基于所有先前的 Token 为每个新的查询 Token 计算相关性分数。对于此计算,lightning indexer 使用 DeepSeek 多头潜在注意力 (MLA) 中的压缩 Token 表示,并计算与其他 Token 的相似度。相似度分数基本上是通过 ReLU 函数的查询向量和键向量之间的缩放点积。


如果你对数学细节感兴趣,下面展示了(摘自论文的)该 lightning indexer 相似度分数的方程:


DeepSeek V3到V3.2的进化之路,一文看全


这里,w 是一个学习得到的每头(per-head)加权系数,决定每个索引器头对最终相似度分数的贡献程度。q 指的是查询向量,k 指的是键向量。下面是不同下标的列表:


  • t:当前查询 Token 的位置;
  • s:序列中先前 Token 的位置 (0 ≤ s < t);
  • j:不同索引器头的索引(为了简单起见,图 10 仅显示了一个头),所以 q_{t,j} 意思是「索引器头 j 中当前 Token t 的查询向量」。


你可能会注意到索引器仅针对查询,而不针对键。这是因为模型只需要决定每个新查询应该考虑哪些过去的 Token。键已经被压缩并存储在 KV 缓存中,因此索引器不需要再次对它们进行评分或压缩。


这里的 ReLU 函数,因为它是 f(x) = max(x, 0),会将负的点积位置归零,这理论上可以实现稀疏性。但由于存在对不同头的求和,索引器分数实际上为 0 的可能性很小。稀疏性主要来自于单独的 Token 选择器。


单独的 Token 选择器仅保留少量高分 Token(例如,top-k 位置),并构建一个稀疏注意力掩码,掩盖掉未包含在选定子集中的其他 Token。(注意这里的 k 是 top-k 中的 k,不要与上面方程中用于键的 k 混淆,这是一个超参数,在 DeepSeek 团队分享的模型代码中设置为 2048。)


下图以流程图的形式说明了整个过程。


DeepSeek V3到V3.2的进化之路,一文看全


图 11:DeepSeek V3.2 稀疏注意力机制的可视化总结。


总结一下,索引器和 Token 选择器的结果是,每个 Token 只关注模型习得的认为最相关的几个过去 Token,而不是所有 Token 或固定的局部窗口。


这里的目标不是为了超越 DeepSeek V3.1-Terminus 的性能,而是在减少性能衰减(由于稀疏注意力机制)的同时,受益于效率的提升。


总的来说,DSA 将注意力机制的计算复杂度从二次的 O(L²) 降低到了线性的 O(Lk),其中 L 是序列长度,k 是选定 Token 的数量。


5. 采用自我验证与自我修正的 DeepSeekMath V2


讨论完 DeepSeek V3.2-Exp,我们越来越接近本文的主题:DeepSeek V3.2。然而,还有一个拼图需要先讨论。


2025 年 11 月 27 日(美国的感恩节),就在 DeepSeek V3.2 发布前 4 天,DeepSeek 团队发布了基于 DeepSeek V3.2-Exp-Base 的 DeepSeekMath V2


该模型是专门为数学开发的,并在多个数学竞赛中获得了金牌级的分数。本质上,我们可以将其视为 DeepSeek V3.2 的概念验证模型,它引入了另一项技术。


这里的关键在于,推理模型(如 DeepSeek R1 和其他模型)是使用外部验证器训练的,模型学会了在得出最终答案之前自行编写解释。然而,这些解释可能是不正确的。


正如 DeepSeek 团队简洁指出的那样,常规 RLVR 的缺点是:


[…] 正确的答案并不保证正确的推理。
[…] 模型可能通过有缺陷的逻辑或幸运的错误得出正确的答案。


他们旨在解决的 DeepSeek R1 RLVR 方法的另一个局限性是:


[…] 许多数学任务(如定理证明)需要严格的逐步推导而不是数值答案,这使得最终答案奖励并不适用。


因此,为了改善上述两个缺点,他们训练了两个模型:


  1. 一个用于定理证明的基于 LLM 的验证器(Verifier)。
  2. 主模型,一个证明生成器(Proof-Generator),它使用基于 LLM 的验证器作为奖励模型(而不是符号验证器)。


除了上述通过 LLM 进行自我验证外,他们还使用了自我修正,让 LLM 迭代地改进其自己的答案。


5.1 自我验证


拥有一个对中间步骤进行评分的 LLM 并不是什么新鲜事。有不少关于所谓「过程奖励模型」(Process Reward Models)的研究专注于此。例子包括:Solving Math Word Problems With Process- and Outcome-based Feedback (2022) 或 Let’s Verify Step by Step (2023),还有更多。


过程奖励模型的挑战在于,检查中间奖励是否正确并不容易,这也可能导致奖励黑客攻击(reward hacking)。


在 2025 年 1 月的 DeepSeek R1 论文中,他们没有使用过程奖励模型,因为他们发现:


在我们的实验中,与其在大规模强化学习过程中引入的额外计算开销相比,它的优势是有限的。


在此文中,他们以自我验证的形式成功地重新审视了这一点。其动机是,即使不存在参考答案,人类在阅读证明和发现问题时也能进行自我纠正。


因此,为了开发一个更好的撰写数学证明的模型(下图中的 LLM 1),他们开发了一个证明验证器(下图中的 LLM 2),它可以用作「LLM 即裁判」(LLM-as-a-judge)来对证明者(LLM 1)的输出进行评分。


DeepSeek V3到V3.2的进化之路,一文看全


图 12:通用的数学证明生成器 (LLM 1) 和验证器 (LLM 2) 设置。


验证器 LLM (LLM 2) 接收一个评分标准来对生成的证明进行评分,分数规则如下:


  • 「1 分:完整且严谨的证明,所有逻辑步骤都有清晰的论证;」
  • 「0.5 分:证明整体逻辑合理,但有微小错误或遗漏细节;」
  • 「0 分:证明存在根本性缺陷,包含致命的逻辑错误或关键缺失。」


对于证明验证器模型,他们从 DeepSeek V3.2-Exp-SFT 开始,这是他们基于 DeepSeek V3.2-Exp 通过在推理数据(数学和代码)上进行监督微调而创建的模型。然后,他们使用格式奖励(检查解决方案是否符合预期格式)和基于预测分数与实际分数(由人类数学专家标注)接近程度的分数奖励,对该模型进行进一步的强化学习训练。


证明验证器 (LLM 2) 的目标是检查生成的证明 (LLM 1),但谁来检查证明验证器呢?为了使证明验证器更加稳健并防止其产生幻觉问题,他们开发了第三个 LLM,即元验证器(Meta-verifier)。


DeepSeek V3到V3.2的进化之路,一文看全


图 13:元验证器 (LLM 3) 检查验证器 (LLM 2) 是否正确评估了生成器 (LLM 1)。


元验证器 (LLM 3) 也是通过强化学习开发的,类似于 LLM 2。虽然使用元验证器不是必须的,但 DeepSeek 团队报告称:


由元验证器评估的验证器证明分析的平均质量得分从 0.85 提高到了 0.96,同时保持了相同的证明评分预测准确性。


这实际上是一个相当有趣的设置。如果你熟悉生成对抗网络 (GAN),你可能会在这里看到类比。例如,证明验证器(将其视为 GAN 判别器)改进了证明生成器,而证明生成器生成了更好的证明,进一步推动了证明验证器的进步。


元分数(Meta score)用于验证器 (LLM 2) 和生成器 (LLM 1) 的训练期间。它并不用于推理时的自我修正循环,我们将在下一节讨论这一点。


5.2 自我修正


在上一节中,我们谈到了自我验证,即分析解决方案的质量。其目的是为了实现自我修正,这意味着 LLM 可以根据反馈采取行动并修改其答案。


传统上,在自我修正这种成熟且流行的推理扩展技术中,我们会使用同一个 LLM 来生成解决方案并对其进行验证,然后再进行修正。换句话说,在前面的图 12 和 13 中,LLM 1 和 LLM 2 将是同一个 LLM。因此,传统的自我修正过程如下所示:


DeepSeek V3到V3.2的进化之路,一文看全


图 14:一个经典的自我修正迭代,同一个 LLM 生成初始响应(Output 1),对其进行评估(Eval),并生成修正后的答案(Output 2)。


然而,DeepSeek 团队观察到在实践中使用同一个 LLM 既进行生成又进行验证存在一个关键问题:


当被提示一次性生成并分析其自己的证明时,生成器往往会声称正确,即使外部验证器很容易发现缺陷。换句话说,虽然生成器可以根据外部反馈修正证明,但它无法像专用验证器那样严谨地评估自己的工作。


作为逻辑推论,人们会假设他们使用独立的证明生成器 (LLM 1) 和证明验证器 (LLM 2)。因此,这里使用的自我修正循环变得类似于下图所示。请注意,我们省略了 LLM 3,它仅在开发验证器 (LLM 2) 期间使用。


DeepSeek V3到V3.2的进化之路,一文看全


图 15:使用独立验证器 LLM (LLM 2) 的自我修正。


然而,在实践中,与图 15 不同的是,DeepSeek 团队使用的生成器和验证器 LLM 与图 14 中的经典自我修正循环是同一个:


「所有实验都使用了一个单一模型,即我们的最终证明生成器,它同时执行证明生成和验证。」


换句话说,独立的验证器对于训练是必不可少的——可用于改进生成器,但在生成器足够强大之后,在推理期间就不再使用(或不需要)它了。与简单的单模型自我修正的关键区别在于,最终的证明者是在更强大的验证器和元验证器的指导下训练出来的,因此它学会了将这些评分标准应用于自己的输出。


此外,在推理期间使用这种合二为一的 DeepSeekMath V2 验证器在资源和成本方面也是有利的,因为它比运行第二个 LLM 进行证明验证增加了更少的复杂性和计算需求。


回到图 14 和 15 中展示的一般自我修正概念,这两张图都显示了 2 次迭代的自我修正(初始迭代和修正后的答案)。当然,我们可以向此过程添加更多迭代。这是一个经典的推理扩展权衡:我们添加的迭代越多,生成答案的成本就越高,但整体准确性也会越高。


在论文中,DeepSeek 团队使用了多达 8 次迭代,看起来准确性尚未饱和。


DeepSeek V3到V3.2的进化之路,一文看全


图 16:额外的自我修正迭代提高了准确性。来自 DeepSeekMath V2 论文,并加上了注释。Best@32 多数投票方法也被称为自我一致性(Self-consistency)。


6. DeepSeek V3.2 (2025 年 12 月 1 日)


我们在上一节花了这么多时间讨论 DeepSeekMath V2 的原因是:


  • 它是一个非常有趣的概念验证,通过自我验证和自我修正技术进一步推动了「带可验证奖励的强化学习」(RLVR)理念;
  • 自我验证和自我修正技术也被用于 DeepSeek V3.2 中。


但在我们进入这部分之前,先来看看 DeepSeek V3.2 的总体概况。这个模型之所以重要,是因为它与当前的旗舰模型相比表现非常出色。


DeepSeek V3到V3.2的进化之路,一文看全


图 17:DeepSeek V3.2 与专有旗舰模型之间的基准测试对比。来自 DeepSeek V3.2 报告,并加上了注释。


与 DeepSeek 的其他几款模型类似,V3.2 也附带了一份很棒的技术报告,我将在接下来的章节中进行讨论。


6.1 DeepSeek V3.2 架构


当然,该模型的主要动机是提高整体模型性能。例如,像 DeepSeekMath V2 一样,它在数学基准测试中获得了金牌级的表现。然而,该模型在训练时也考虑到了工具的使用,并且在其他任务(例如代码和智能体任务)上也表现良好。


同时,DeepSeek 团队将计算效率视为一个巨大的驱动因素。这就是为什么他们使用了 V2 和 V3 中的多头潜在注意力 (MLA) 机制,以及他们在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 机制。事实上,论文中提到「DeepSeek-V3.2 使用了与 DeepSeek-V3.2-Exp 完全相同的架构」,这我们在前面的章节中已经讨论过了。


DeepSeek V3到V3.2的进化之路,一文看全


图 18:DeepSeek V3.2 架构。


正如我之前提到的,DeepSeek V3.2-Exp 的发布很可能是为了让生态系统和推理基础设施准备好托管刚刚发布的 V3.2 模型。


DeepSeek V3到V3.2的进化之路,一文看全


图 19:由 DeepSeek 稀疏注意力 (DSA) 实现的推理成本节省。来自 DeepSeek V3.2 报告,并加上了带注释。


由于架构与 DeepSeek V3.2-Exp 相同,有趣的细节在于训练方法,我们将在接下来的章节中讨论。


6.2 强化学习更新


总的来说,DeepSeek 团队采用了类似于 DeepSeek R1 的「带可验证奖励的强化学习」(RLVR)程序,使用了群体相对策略优化(GRPO)算法。但是,有一些有趣的更新值得讨论。


最初,DeepSeek R1 使用了:


  • 格式奖励(确保答案格式正确);
  • 语言一致性奖励(确保模型在编写回复时不会在不同语言之间切换);
  • 主要的验证者奖励(数学或代码问题中的答案是否正确)。


对于 DeepSeek V3.2,他们更改了奖励:


对于推理和智能体任务,我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务,我们采用生成式奖励模型,其中每个提示都有自己的评估标准。


例如,他们移除了格式奖励,但为智能体任务添加了长度惩罚。然后,对于没有符号验证器(数学)或代码解释器来验证答案的通用任务,他们使用奖励模型(另一个训练用于输出奖励分数的 LLM)。


所以,听起来这个流程不再是像 DeepSeek R1 那样纯粹的基于验证器的 RLVR,而是 RLVR(用于可验证领域)和更标准的「LLM 即裁判」奖励建模(用于其他所有领域)的混合体。


对于数学领域,他们表示额外「整合了来自 DeepSeekMath-V2 的数据集和奖励方法」,这我们在本文前面已经讨论过了。


6.3 GRPO 更新


关于 RLVR 流程内部的学习算法 GRPO 本身,自 DeepSeek R1 论文中的原始版本以来,他们也做了一些更改。


在过去的几个月里,数十篇论文提出了对 GRPO 的修改建议,以提高其稳定性和效率。


如果不深入 GRPO 的数学细节,简单来说,DAPO 修改了 GRPO,采用了非对称裁剪、动态采样、Token 级损失和显式的基于长度的奖励整形。Dr. GRPO 更改了 GRPO 目标本身,以移除长度和标准差归一化。


最近的 Olmo 3 论文也采用了类似的变更,我引用如下:


  • 零梯度信号过滤: 我们移除奖励完全相同的实例组(即优势标准差为零的批次),以避免在提供零梯度的样本上进行训练,类似于 DAPO (Yu et al., 2025)。[DAPO]
  • 主动采样: 尽管进行了零梯度过滤,我们仍使用一种新颖、更高效的动态采样版本维持一致的批次大小 (Yu et al., 2025)。详见 OlmoRL Infra。[DAPO]
  • Token 级损失: 我们使用 Token 级损失,通过批次中的 Token 总数进行归一化 (Yu et al., 2025),而不是按样本归一化,以避免长度偏差。[DAPO]
  • 无 KL 损失: 作为一种常见做法,我们移除了 KL 损失 (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b),因为它允许更少限制的策略更新,并且移除它不会导致过度优化或训练不稳定。[DAPO 和 Dr. GRPO]
  • 更高裁剪阈值: 我们将损失中的上限裁剪项设置为比下限略高的值,以允许对 Token 进行更大的更新,正如 Yu et al. (2025) 提议的那样。[DAPO]
  • 截断重要性采样: 为了调整推理引擎和训练引擎之间对数概率的差异,我们将损失乘以截断的重要性采样比率,遵循 Yao et al. (2025)。
  • 无标准差归一化: 在计算优势时,我们不对组的标准差进行归一化,遵循 Liu et al. (2025b)。这消除了难度偏差,即奖励标准差低的问题(例如太难或太容易)其优势会被归一化项显著放大。[Dr. GRPO]


DeepSeek V3.2 中的 GRPO 修改稍微不那么激进,我用类似于 Olmo 3 的风格总结如下:


  • 特定领域的 KL 强度(包括数学为零): DeepSeek V3.2 没有像 DAPO 和 Dr. GRPO 那样对数学类 RL 总是放弃 KL,而是在目标中保留 KL 项,但根据每个领域调整其权重。然而,他们也指出,非常弱甚至为零的 KL 通常对数学效果最好。(但不是完全移除它,而是变成了一个超参数。)
  • 无偏 KL 估计: 如上所述,DeepSeek V3.2 没有移除 KL 惩罚。除了将其视为调节旋钮外,他们还提出了对 GRPO 中 KL 惩罚估计方式的修正,即用用于主损失的相同重要性比率重新加权 KL 项,因此 KL 梯度实际上与样本来自旧策略而不是当前策略的事实相匹配。
  • 异策略序列掩码(Off-policy sequence masking): 当他们在许多梯度步骤中重用 rollout 数据(rollout 只是模型生成的完整序列的术语)时,DeepSeek V3.2 测量当前策略在每个完整答案上偏离 rollout 策略的程度,并简单地丢弃那些既具有负优势又「过于偏离策略」的序列。因此,这防止了模型从过度偏离策略或陈旧的数据中学习。
  • 保留 MoE 模型的路由: 对于混合专家骨干网络,他们记录了 rollout 期间激活了哪些专家,并在训练期间强制使用相同的路由模式,以便梯度更新针对那些产生采样答案的专家。
  • 保留 top-p /top-k 的采样掩码: 当 rollout 使用 top-p 或 top-k 采样时,DeepSeek V3.2 存储选择掩码并在计算 GRPO 损失和 KL 时重新应用它,以便训练时的动作空间与采样期间实际可用的动作空间相匹配。
  • 保留原始 GRPO 优势归一化: Dr. GRPO 表明 GRPO 的长度和每组标准差归一化项会使优化偏向于过长的错误答案,并过度加权非常容易或非常难的问题。Dr. GRPO 通过移除这两个项并回到无偏的 PPO 风格目标来解决这个问题。相比之下,DAPO 转向 Token 级损失,这也改变了长答案与短答案的加权方式。然而,DeepSeek V3.2 保留了原始的 GRPO 归一化,而是专注于其他修正,例如上面的那些。


所以,总的来说,DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法,但增加了一些逻辑上的微调。


6.4 DeepSeek V3.2-Speciale 与扩展思维


DeepSeek V3.2 还有一个极端的、扩展思维(extended-thinking)的变体,称为 DeepSeek V3.2-Speciale,它在 RL 阶段仅在推理数据上进行训练(更类似于 DeepSeek R1)。除了仅在推理数据上训练外,他们还在 RL 期间减少了长度惩罚,允许模型输出更长的响应。


生成更长的响应是一种推理扩展形式,为了获得更好的结果,响应因长度增加而变得更加昂贵。


DeepSeek V3到V3.2的进化之路,一文看全


图 20:扩展思维的 Speciale 模型实现了更高的准确性,但也生成了更多的 Token。


7. 总结


在这篇文章中,我没有涵盖 DeepSeek V3.2 训练方法的所有细节,但我希望与之前的 DeepSeek 模型的比较有助于阐明主要观点和创新。


简而言之,有趣的要点是:


  • DeepSeek V3.2 使用了自 DeepSeek V3 以来与其所有前身相似的架构;
  • 主要的架构调整是他们添加了来自 DeepSeek V3.2-Exp 的稀疏注意力机制以提高效率;
  • 为了提高数学性能,他们采用了来自 DeepSeekMath V2 的自我验证方法;
  • 训练流程有几项改进,例如 GRPO 稳定性更新(注意论文还涉及围绕蒸馏、长上下文训练、集成类似于 gpt-oss 的工具使用等其他几个方面,我们在本文中没有涵盖)。


无论 DeepSeek 模型与其他较小的开放权重模型或像 GPT-5.1 或 Gemini 3.0 Pro 这样的专有模型相比的市场份额如何,有一件事是肯定的:DeepSeek 的发布总是很有趣,而且从随开放权重模型检查点一起发布的技术报告中总有很多值得学习的东西。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0