来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

6486点击 2025-09-18 14:26

在对大模型进行微调以适应新数据的过程中，模型虽然能够获得新的能力，但往往也会显著削弱甚至完全丧失此前已掌握的知识与技能。这种现象被称为“灾难性遗忘”（Catastrophic Forgetting），它成为制约模型实现持续学习与自我演进的关键障碍。

当前主流的微调范式主要包括监督微调（Supervised Fine-Tuning, SFT）与基于强化学习（Reinforcement Learning，RL）。尽管两者均旨在提升模型在特定任务上的表现，但一个值得注意的经验性发现是：相较于SFT，RL微调在引入新任务的同时，似乎更能有效保留模型的通用能力，即表现出更弱的遗忘倾向。这一观察引发了一个核心问题：为何强化学习在学习新任务时，相较于监督微调，展现出更优的抗遗忘能力？其背后是否存在某种深层的机制，使得RL在知识保留方面具备天然优势？这一现象的底层逻辑，值得深入探究。

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文，系统性地回答了这个问题，他们不仅通过大量实验证实了这一现象，更进一步提出了一个简洁而深刻的解释，并将其命名为 “RL's Razor”（RL的剃刀）。

这篇论文核心在于解释并验证一个现象：在微调大模型时，使用强化学习（RL）比监督微调（SFT）更能保留原有知识，遗忘更少，具体核心发现包括：

RL比SFT遗忘更少

在多个任务（数学、科学问答、工具使用、机器人控制）中，RL微调在提升新任务性能的同时，显著保留了对旧任务的能力，而SFT则更容易“灾难性遗忘”。

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

遗忘程度可由KL散度预测（经验法则）

作者提出一个经验法则：微调模型在新任务上的KL散度（相对于原始模型）越大，遗忘越严重。

这个指标比权重变化、激活漂移等更稳定地预测遗忘。

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

RL的“KL最小偏好”机制（RL's Razor）

RL之所以能减少遗忘，是因为其on-policy训练机制天然倾向于KL散度最小的解。换句话说，RL在解决新任务时，会优先选择“离原模型最近”的策略，而SFT则可能被推向任意远的目标分布。

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

理论支持

作者通过简化模型（如ParityMNIST）和理论分析，证明了RL的更新过程等价于最小化KL散度的投影过程，即使不加正则项，RL也会收敛到KL最小的最优策略。

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

验证KL假设的“Oracle SFT”实验

作者构造了一个理论上KL最小的SFT目标分布，发现：使用这个目标进行SFT，遗忘甚至比RL还少，这进一步说明：遗忘的关键不是算法，而是分布偏移的大小。

同时，论文作者也做出了诸多实验结果验证：

LLMs多任务微调

方法：Qwen2.5-3B上分别用RL(GRPO)与SFT做超参sweep，绘新任务 vs 旧任务Pareto前沿。

结果：RL曲线整体位于SFT上方——同新任务精度下旧任务保留率平均高10–20%。

机器人控制微调

方法：OpenVLA-7B在SimplerEnv做Pick-and-Place微调，REINFORCE vs SFT，测抽屉开闭旧任务成功率。

结果：RL旧成功率≈0.55，SFT仅≈0.42，新任务成功率同为≈0.9。

ParityMNIST可控toy实验

方法：3层MLP联合预训Parity+Fashion，再分别用RL、两种任意SFT、Oracle-KL-SFT微调，记录Fashion测试损失。

结果：遗忘与KL(π_0||π) 呈二次关系 R²=0.96，Oracle-SFT遗忘最低，RL次之，随机SFT最差。

消融实验

方法：把训练目标拆成on/off-policy × 有无负例四象限（GRPO/1-0-Reinforce/SFT/SimPO），同任务比较。

结果：on-policy两方法KL更小且旧任务更高；负例不是主因，采样方式才是关键。

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

Oracle-SFT验证KL假设

方法：解析求出“达到 100% 准确率且KL(π_0||π) 最小”的标签分布，再用标准SFT训练。

结果：该分布的遗忘量甚至低于RL，直接证明决定遗忘的是KL大小而非算法类型。

表示相似性测量

方法：用CKNNA比较微调模型与基模型在Wikipedia段落上的嵌入核。

结果：RL模型CKNNA≈0.94，SFT仅≈0.56，证实RL保持原表示结构。

以上是这篇论文核心内容的提炼，原论文进行了更加详实的思想方法论述、数学验证和实验过程，详细内容建议大家参考原论文：

论文名称：《RL’s Razor: Why Online Reinforcement Learning Forgets Less》

论文链接：https://arxiv.org/pdf/2509.04259

结合这篇论文的实验性探索，我想从侧面亦会引申出一系列未来模型在post-training阶段极其深刻且内在关联的本质问题，包括模型的泛化能力、局部/全局最优，不同梯度优化策略算法等的影响，这些均触及了当下大语言模型（LLM）Post-training下的诸多挑战与未来精进方向，接下来分享一下我的一些浅显思考，希望能对大伙有所帮助：

1. 为什么SFT通常会导致灾难性遗忘？站在分布漂移与KL散度的视角

灾难性遗忘（Catastrophic Forgetting）的本质是：当模型学习新任务（Task B）时，其参数更新会覆盖掉先前学习任务（Task A）所需的知识。

在SFT中，同上述论文，这个过程可以精确地用“概率分布”和“KL散度”来描述：

拿预训练模型（原始模型）举例：其原始策略空间可以看成一个容纳了极其“广泛”且又“碎片化”的“世界模型”分布。由于其是在海量互联网文本上采用无监督训练得出的，覆盖了语法、事实、推理、风格等无数个“分散任务”。即它的概率质量分散在一个巨大的输出空间里。

而SFT数据，其目标ground truth分布通常是非常尖锐（Sharp）和狭窄（Narrow）的。对于给定的Instruction输入，通常只有一个或几个被认为是“完美（标准ground truth）”的回复。在极端情况下（如使用Cross Entropy Loss），这几乎是一个one-hot分布：正确答案的概率为1，其他所有token的概率为0。那么，SFT的训练过程，即是最小化Cross Entropy Loss的过程，模型被强烈地驱动着，将其输出分布从原本宽泛的联合概率分布“拉向”尖锐的分布。

这就导致了分布漂移（Distribution Shift）：

为了完美拟合SFT数据，模型参数会发生改变，使得对于SFT Instruction，模型几乎将所有概率质量都分配给了“标准答案”。这个过程会在无意中扭曲模型在相关但未出现的上下文中的表征。

举个例子：

预训练模型知道“法国的首都是巴黎”，并且也可能以多种方式表达这一点（“巴黎是法国首都”、“法国首都是巴黎市”等）。

SFT数据中，这条知识被固化成一个特定的问答对：“指令：法国的首都是哪？答案：巴黎”。

经过强化的SFT训练，模型学会了对于“法国的首都是哪？”这个特定指令，必须以“巴黎”这个特定token序列作为回答，即ground truth。

这个参数优化过程在不同的数据样本量和多样化下大概率会出现overfitting，即一种表象是影响到模型内部表征中“法国”和“巴黎”更多隐含且不同语义维度的关联强度，即可能弱化或“遗忘”了其他相关的表达方式（例如，它可能不再能流畅地说“巴黎是法国的首都”，或在更多样化的上下文环境中导致崩溃，因为这种表达在SFT数据中没出现过）。模型为了最小化眼前这个尖锐分布的KL散度，从而牺牲了其原始分布中的部分多样性。办法是通过构建更多样的数据样本分布和精细化的策略优化算法拉平这种“尖锐”。

2. 从局部最优和全局最优的视角

Pre-training全局最优：在预训练海量多样化数据上，模型收敛到的点是一个“宽阔的谷底（Broad Basin）”。这个最优点代表着模型在无数非监督任务上表现都“还算不错”，具有极强的“泛化性”和“稳健性”，它的Loss Landscape是平滑的。

SFT局部最优：SFT数据将模型引向一个“尖锐的峡谷（Sharp Valley）”。这个最优点在SFT任务上表现极好（损失极低），但周围是悬崖峭壁。只要输入稍有变化（如同义不同词的指令），输出就可能谬以千里，表现出很差的“泛化性”。

因此，SFT过程可以看成是将模型从“宽阔的谷底”拉向“尖锐的峡谷”这一过程，然后这一过程亦势必带来对全局性的扰动，即牵一发而动全身。ps：虽然我们当前无法完全拆开llms中模型隐参数化知识这一黑盒看到全貌，但诸多模型可视化研究还是可以从不同角度窥见某一方面的。

从优化视角看，SFT让模型陷入了“局部最优点”。这个点对于SFT任务来说是“最优”的，但对于整个预训练任务分布来说，是“次优”的（因为可能遗忘了很多其他知识）。模型很难从这个尖锐的局部最优中逃逸出来，重新回到那个宽阔的全局最优区域，因为两者之间的路径通常充满了高损失屏障。

3. 与模型泛化能力的本质联系

无监督pre-training下的目标可以看成是对海量数据流形分布的最大泛化表征，当然此泛化非彼泛化，可以看成是语言结构的某种程度和pattern的泛化压缩。通过海量数据和自监督学习，模型学习的是数据中底层、抽象、可迁移的规律（语法、语义、逻辑、世界知识）。也可以看成获得的是一种广泛的“元能力”（Meta-ability）。

而SFT的目标则可以尝试视作“特定领域下的泛化”。它教导模型如何调用和格式化其已有的元能力来满足人类特定的交互需求（之前我的观点是某种对碎片化泛化的能力的定向链式联合概率分布组合）。例如，它学会的是“当用户以问答形式提问时，你应该以答案形式回复”，而不是学习“巴黎是首都”这个新知识。

因此我想，SFT导致遗忘的本质，在于其在多样化数据样本分布不均时，它用“狭窄的泛化”覆盖了“广泛的泛化”。模型内隐状态为了完美拟合有限的SFT样本，不得不牺牲掉一部分在预训练中习得的、更广泛、多语义维度但较模糊的关联。它的表征变得专门化（Specialized）了。这就像一位博学的通才（预训练模型），经过严格的客服话术培训（SFT）后，变得只会按脚本说话，虽然客服工作做得很好，但失去了原本广博的学识和灵活应变的能力。

因此回到论文《RL's Razor: Why Online Reinforcement Learning Forgets Less》中的Online Reinforcement Learning，由于其天然的基于当前模型认为比较可能的输出来进行分布调整，使得它会对这些输出根据奖励进行“重新加权”，更新偏好“离起点更近”的分布。即略微增加好输出的概率，降低坏输出的概率，整个过程是渐进式的，像是“小步快跑”，始终围绕着模型当前的分布进行微调。

这样与SFT相比，RL通过更小的KL偏移即可提升新任务准确率，一方面凸显了基于on-policy更新的保守性，另一方面我想这也是最大化继承、保留或延续了原始模型自身的泛化性。虽然KL前向偏移分布与模型泛化能力间的关系尚未探索并建立清晰的理论基础。

不过这里有兴趣的大伙可以仔细再往下深度的思索一下：KL散度的本质即是衡量两个概率“分布”差异的重要工具，以数值量化一个分布相对于另一个“分布”的差异性，而这种“分布”在高维流形数据空间中亦代表了对Pattern的泛化本质，也许不同模型间的泛化分布未来会作为一个可衡量并可计算的数学符号被发现或延展出自身的复杂数学变换关系，而这种最小化“差异性”我想也是作为泛化性复杂关系中最简单且直观的一种。

因此在论文《RL's Razor: Why Online Reinforcement Learning Forgets Less》中通过实验，很自然的观测到了分别在SFT和RL下对应的KL散度与Catastrophic Forgetting间的紧密联系，即模型前后KL散度差异下带来的泛化能力差异表现，从而表现出后训练模型对全局历史泛化能力的Catastrophic Forgetting。

4. SFT监督信号与模型内隐状态的深邃联系

这是最深邃的一层，涉及到深度神经网络表征学习的本质。

SFT的Ground Truth信号作为一种强约束，相对的，它不仅仅要求输出“合理”，而是要求输出“唯一”或“极少数”的正确解。这种强约束会通过反向传播，直接、强力地扭曲和重塑模型深层网络中与之相关的特征表征（模型内隐状态空间）。

参数的迭代作为模型内隐状态表征的迭代，每一次梯度更新，都是模型内部概念表征空间的一次微小几何形变（相变）。SFT任务要求模型形成一条从“指令X”到“答案Y”的高速、低阻力通路。为了建设这条“专用高速公路”，模型可能会“拆掉”或“遮蔽”预训练中形成的、通向其他可能答案的“乡间小路”。而这些“乡间小路”恰恰是模型泛化能力和知识多样性的某种体现。

从模型泛化能力表征的的定位出发，预训练模型的泛化能力可以看成是来源于其表征空间的连续性和平滑性，即语义相似输入在表征空间中距离相近，并且会产生语义相似的输出。SFT的强监督信号也许会打破这种平滑，它在表征空间中为SFT数据点创建了一些“陡峭的峰值”，导致模型在这些点附近变得极其敏感，即overfitting，从而在远离这些点的区域，表征可能变得混乱或不连续，损害了模型的整体泛化能力。

5.不同的模型学习率和优化策略对改变模型Policy Space轨迹和模型前后KL散度的影响

这里分别列举一下不同“梯度下降算法”和“学习率”两个方面的影响：

首先看学习率，学习率作为控制参数更新步长的超参数，它对策略空间和KL散度的影响最为直接和剧烈。

过大的学习率对策略空间的影响：

激进探索：参数更新步长很大，导致模型参数迭代在策略空间中大幅跳跃。模型可能会从一个局部最优点快速跳到另一个局部最优点，或者在某些不良的吸引域（如输出无意义重复文本的模式）间震荡。

难以收敛：策略无法稳定下来，始终在最优策略附近剧烈波动。

过大的学习率带来模型前后KL散度的影响：

KL散度剧烈震荡，模型策略更新前后两个数据分布KL差异化会非常大。这意味着模型策略发生了剧变，之前学到的知识可能被“覆盖”或“遗忘”，损害训练的稳定性或弱化泛化性，这在RLHF的PPO阶段是极其危险的，甚至会导致模型策略崩溃。

过小的学习率对策略空间的影响：

保守迭代：策略在空间中的移动非常缓慢和保守。它可能会陷入一个局部最优点（而非全局最优），或者收敛到一个平庸的解决方案（例如，一个总是输出高频但无聊文本的策略）。

收敛速度慢：需要更多的训练步骤和计算资源才能达到一个较好的性能。

过小的学习率带来模型前后KL散度的影响：

训练KL散度差异变化缓慢：会稳定但非常缓慢地发生数据分布漂移，从而体现出模型对策略空间探索的举步维艰，虽然稳定，但学习效率低下。

因此，找到适合的学习率能够很好的促进模型沿着策略空间中相对平滑且指向目标的路径稳步前进，既能有效探索，又能最终稳定在一个良好的最优点，等效于论文《RL's Razor: Why Online Reinforcement Learning Forgets Less》中指出的达成对KL最小解的偏好可减轻遗忘的效果。

再来看一下不同梯度下降算法的影响，我们知道，优化算法决定了如何利用梯度信息来更新参数，不同的算法会导致在策略空间中完全不同的行走轨迹，这里列举三个大家常见的梯度算法：

SGD：沿着当前mini-batch的负梯度方向更新。

对模型策略演进的影响：

方向噪声大：单个batch的梯度是全局梯度的一个有噪估计，导致更新方向在策略空间中蜿蜒曲折，路径效率低下。

容易陷入尖锐极小点：可能收敛到一个泛化能力差的Sharp Minimum。

模型前后KL散度差异：较大，会偏离原始模型样本分布，造成overfitting。

SGD with Momentum：引入一个“速度”变量，让更新方向不仅考虑当前梯度，还积累之前的梯度方向，起到平滑和加速的作用。

对模型策略演进的影响：

更平滑的路径：动量帮助策略在空间中沿着一个更一致、更少噪声的方向移动，减少了不必要的震荡。

有助于逃离平坦区或局部极小：动量提供的“惯性”可以帮助模型冲出一些平坦的saddle point或浅层的局部最优点。

对KL散度的影响：更新方向更平滑，使得KL散度偏差的变化也更温和，同时继承原始模型泛化分布。

Adam：同时计算梯度的一阶矩（动量）和二阶矩（未中心化的方差）的指数移动平均值，并进行偏差校正和自适应学习率调整。

对模型策略演进的影响：

自适应步长：为每个参数计算不同的有效学习率。对于频繁更新的参数（通常对应重要特征），步长较小；对于不频繁更新的参数，步长较大。这使得策略更新更加精细。

快速初始进展：Adam通常能非常快地显著降低损失，在策略空间中初期移动很快，不过也有其它研究表明，自适应优化器（如Adam）找到的解可能不如基础SGD找到的解泛化能力强，但这在LLM训练中通过大量正则化技术得到了缓解。

对KL散度的影响：初期训练KL分布快速变化并加速模型策略空间探索的同时在后期稳步演进避免造成更大的KL分布偏差并保持模型一定程度的泛化能力（猜测）：我想这是Adam被广泛采用的主要原因之一，同时也许在某些任务或样本呈现的多样化分布下需谨慎调参，虽然通常使用默认值，但对迭代KL和最终性能仍有影响。

因此，选择不同的优化算法和学习率实质上是在策略空间的探索效率和训练稳定性（由KL散度衡量）之间进行权衡。一个好的优化策略能够引导模型沿着一条既高效又平稳的路径，收敛到一个高性能且泛化能力强的策略空间点。在RL等复杂训练任务中，这种权衡变得尤为关键，即呈现出我们看到的需要通过KL惩罚或Clip等机制进行显式、精确的控制。

最后总结一下

对LLMs进行SFT导致的灾难性遗忘，是一个在多维度上发生的复杂现象：

概率视角：是模型输出分布从宽泛、平滑的原始分布，向尖锐、狭窄的SFT目标分布转移，通过Cross Entropy Loss和最小化KL联合制约。

优化视角：是模型参数从代表广泛能力的宽阔全局最优点，滑向代表特定能力的尖锐局部最优点的过程。

表征学习视角：是模型内隐状态的表征空间，为了满足有限SFT样本的强约束而发生的几何形变，这种形变以牺牲原始表征空间的连续性和平滑性（即泛化基础）为代价。

因此，不论是Pre-training到Post-training还是SFT和RL，在模型高维策略空间中的探索和演进与模型拟合分布及泛化能力的本质联系是一种根本性的权衡（回到经典的偏差与方差权衡）：用通用性换取专用性，用广度换取精度，如LoRA和RLHF中，其重要目标之一就是试图在施加这种目标约束的同时，最小化对原始模型广泛表征空间的破坏，从而在“不忘本”的前提下“学好新技能”。

捎带一说，最近也看了一篇由清华大学等单位合作完成的论文《Towards a Unified View of Large Language》，首次从理论层面统一了SFT和RL的优化目标，提出了统一策略梯度估计器（Unified Policy Gradient Estimator, UPGE），并在此基础上设计了一种混合后训练算法（Hybrid Post-Training, HPT），能够根据模型的实际表现动态选择学习方式。并从实验表明，HPT在多个数学推理基准上显著超越了以往的最佳方法，且适用于不同规模的模型。

来自MIT的最新研究-RL's Razor｜展望LLMs Post-Training下的前沿探索与思考

论文名称：Towards a Unified View of Large Language Model Post-Training

论文链接：https://arxiv.org/pdf/2509.04419

论文虽然通过理论统一和算法创新，解决了LLM后训练中SFT与RL融合的一些根本问题，如UPGE框架为理解现有方法提供了共同基础，HPT算法则展示了如何基于性能反馈实现动态平衡。但我想在未来的工作上可分别结合两篇或更多有关围绕SFT&RL这一探索性路线对更深层次的模型在后训练过程中隐含的诸如泛化性、拟合问题、偏差/方差、数据KL散度分布、梯度策略及灾难性遗忘现象等本质内涵进行更深入的关联探索与研究，如：更精细的梯度组件组合策略、理论分析更复杂的偏差-方差trade-off、SFT与RL的互补动态策略、Catastrophic Forgetting的机理、模型的泛化性演进内涵与理论体系。

文章来自于微信公众号 “塔罗烩”，作者 “吕明”

关键词: 人工智能 , AI , 模型训练 , RL's Razor , 监督微调

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner