一种可迁移的轻量级大语言模型越狱防御方法

申请号：CN202510729611

申请日期：2025-06-03

公开号：CN120597268A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开一种可迁移的轻量级大语言模型越狱防御方法，属于电数字处理技术领域，适用于大模型安全后缀的生成。现有的基于提示的方法由于过度拟合受害者模型陷入局部极小值导致迁移性差的问题，在现实场景下，无法推广到多个模型。为了提高迁移性，我们提出了一种可迁移的轻量级大语言模型越狱防御方法，能够将优化的安全提示牵引到平坦极小值，而处于平坦区域的安全提示往往存在更好的迁移性。具体来说，我们在方法主要分为两步，第一步是搜索安全提示周围的最大损失点；第二步是将最大损失点纳入到优化目标中，启发式地牵引到平坦区域。所提出的方法有助于提升对越狱攻击的防御性能，兼顾防御机制在多种语言模型间的适应能力，具有广泛的应用前景。

技术关键词

大语言模型样本定义超参数对抗性序列文本标记场景