ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

9802点击 2026-04-23 14:06

当你问 AI 「如何关掉房间的灯（how to kill the lights）」，却被冰冷拒绝「无法提供相关帮助」；当你想探讨「黑客技术的正向应用」，得到的却是「拒绝涉及非法活动」的机械回应 —— 你遇到的正是大语言模型（LLMs）的「过度拒绝」（over-refusal）痛点。

为了平衡安全与实用性，现有对齐技术往往强化模型的拒绝机制，却让模型变得「草木皆兵」，把含表面风险词汇但语义无害的指令误判为有害。这不仅严重影响用户体验，还会导致「对齐税」（alignment tax），让模型在通用任务上的性能大打折扣。

针对这一行业难题，合肥工业大学与科大讯飞联合团队提出了全新的低秩参数修剪框架 ProSafePrune，该工作已被国际顶会 ICLR 2026 录用。通过精准定位模型内部的认知偏差并针对性修剪，ProSafePrune 在大幅降低过度拒绝率的同时，不仅不损害模型的安全防御能力，还能轻微提升通用任务性能，为 LLM 的安全部署提供了全新思路。

论文链接：https://openreview.net/forum?id=QkHKaPfRAB
Github 链接：https://github.com/hfutml/PROSAFEPRUNE

研究背景：

过度拒绝的核心痛点与现有方案局限

大语言模型在内容创作、智能客服等领域的广泛应用，让安全对齐成为必答题。主流的 SFT（监督微调）、RLHF（基于人类反馈的强化学习）等技术，虽能有效抑制恶意输出，却容易陷入「过度防御」的困境。

这种「过度拒绝」本质上是模型在特征层面的认知偏差：LLM 的隐藏状态会自然编码输入的安全属性，但伪有害指令（语义无害但含风险词汇）会同时投影到有害子空间和无害子空间。过度的安全微调会放大这种投影中的有害成分，压制无害成分，导致模型内部决策边界偏移，最终误判拒绝。

更棘手的是，这种认知偏差还会引发「对齐税」：模型为了追求绝对安全变得过度谨慎，通用推理、知识问答等核心能力会随之下降。

现有缓解方案存在明显短板：

训练 - based 方法：需要额外标注数据和大量计算资源，成本高且实用性有限；
训练 - free 方法：虽无需参数更新，但多在推理时干预，会引入额外延迟，且需要固定干预向量，不方便部署。

找到一种轻量化、能直击问题根源的解决方案，成为 LLM 安全部署的关键。

核心发现：

过度拒绝的根源是「过度有害编码」

团队通过探针实验揭示：过度拒绝的本质是模型对伪有害指令的「过度有害编码」（over-harmful encoding）。

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

研究人员在 LLaMA-2-7B 和 LLaMA-3-8B 上的实验发现：伪有害指令在模型早期层会因词汇相似性呈现强有害信号，中间层随着全局语义浮现，有害信号会减弱，但 LLaMA-2-7B 的深层却不能有效削弱有害特征，这与其 38.5% 的高误拒率高度相关（LLaMA-3-8B 误拒率仅 10.5%）。

这种「过度有害编码」不仅导致了过度拒绝，还使得模型过度谨慎，导致通用任务性能下降。这一发现为解决方案指明了方向：直接在参数空间中移除这些冗余的低秩有害成分，就能在不影响安全防御的前提下，缓解过度拒绝并降低对齐税。

ProSafePrune：

三大核心设计，精准修剪认知偏差

ProSafePrune 的核心思路是：通过子空间投影分离伪有害特征与真正有害特征，在模型最具辨别力的中间层，针对性修剪放大伪有害性的低秩参数方向。整个框架无需额外训练，推理时无任何开销，实现了「一次修剪，永久生效」。

1. 子空间提取：用 SVD 精准分离特征

团队采用奇异值分解（SVD），从安全、有害、伪有害三类指令的模型输出中，分别提取对应的子空间。这种分解能在最小化信息损失的前提下，捕捉最具判别力的特征方向，确保分离出的子空间精准可靠。

具体来说，针对模型第 l 层的每个子模块（Q、K、V、O、FFN），收集三类指令的输出激活并池化为向量矩阵，通过 SVD 分解得到：

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

2. 重叠算子：精准定位「过度有害」成分

为了避免修剪时误删真正的安全防御成分，团队设计了独特的重叠算子：

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

这种设计能精准定位需要修剪的「过度有害」成分，确保修剪后模型仍能有效拒绝真正的恶意指令。

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

3. 中间层修剪：平衡效果与性能

通过 t-SNE 可视化和轮廓系数（silhouette score）分析，团队发现模型的中间层具有最强的特征分离能力，是安全相关特征判别最关键的区域。修剪这些层既能高效缓解过度拒绝，又能最小化对模型整体性能的影响。

最终修剪操作通过以下公式实现：

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

其中 λ∈[0,1] 控制修剪强度，通过调节 λ 可平衡过度拒绝缓解效果与安全性能。

实验验证：

全方位碾压 SOTA，安全与实用双提升

团队在 LLaMA-2/3、Qwen2.5/3 等多个系列模型（7B-70B 参数）上进行了全面评估，涵盖过度拒绝、安全防御、通用任务三大维度，结果显示 ProSafePrune 表现突出。

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

1. 过度拒绝显著缓解

在 OR-Bench、PHTest 等四大伪有害指令基准上，ProSafePrune 的合规率（C.R.）大幅提升。以 LLaMA-2-7B 为例，合规率从默认的 11.0% 提升至 73.0%，远超 Self-CD（43.5%）、Surgical（57.5%）等 SOTA 方法，意味着更多伪有害指令能被正确响应。从内部表征的角度，可以明显观察到经过裁剪，后续层过度的有害性编码被有效缓解。

2. 安全防御能力不降级

在 AdvBench、JailbreakBench 等恶意指令基准上，ProSafePrune 的安全分数（S.S.）与原始模型相比下降微小，证明修剪仅移除「过度有害」成分，不会过度损害模型对真正恶意指令的拒绝能力。

3. 通用任务性能略微提升

内部过度有害编码与对齐税具有关联性，ProSafePrune 还能轻微提升模型的通用能力：LLaMA-2-7B 在 MMLU 上的得分从 37.1 提升至 39.6，CommonQA 从 49.0 提升至 53.0，GSM8K 从 23.0 提升至 25.5。

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

4. 消融实验验证关键设计

单独修剪单个子模块（如 V.proj）的合规率仅 30.5%，远低于修剪整个层的 73.0%，证明过度拒绝源于子模块间的交互；
若移除伪有害子空间投影，虽能进一步提升合规率，但安全分数会从 96% 暴跌至 75% 左右，验证了重叠算子的精准筛选作用；
修剪中间层的效果远超底层和顶层，证实了中间层在安全特征判别中的核心作用。

方法优势：

部署友好，泛化性强

相比现有方案，ProSafePrune 具有三大实用优势：

1. 无推理开销：修剪后生成独立模型，无需额外存储干预向量或推理时调整，部署成本低；

2. 推理速度快：在 OR-Bench-Hard-1K 测试中，ProSafePrune 仅需 16 分钟，远快于 Self-CD（43 分钟）、SCAN（20 分钟）；

3. 泛化性强：在 32B 参数的 Qwen3 和 70B 参数的 LLaMA-2 上仍有效，LLaMA-2-70B 的 OR-Bench 合规率从 6.5 提升至 68.5。

总结与展望

ProSafePrune 的核心贡献在于从表征空间角度揭示了过度拒绝的根源，并提出了参数层面的根治方案。通过子空间投影与低秩修剪的结合，该方法实现了「安全防御不降级、过度拒绝大缓解、通用性能小提升」的三重目标，为 LLM 的安全对齐提供了新范式。

随着 LLM 在各行各业的深度渗透，安全与实用的平衡成为核心竞争力。ProSafePrune 的开源发布，将为开发者提供高效的解决方案，推动 AI 技术更安全、更友好地落地。

文章来自于"机器之心"，作者 "陈紫军"。

关键词: AI新闻 , 模型训练 , ProSafePrune , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner