大语言模型越狱攻击的防御方法、系统、设备和存储介质

申请号：CN202510906950

申请日期：2025-07-02

公开号：CN120408608B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及模型防御技术领域，公开了一种大语言模型越狱攻击的防御方法、系统、设备和存储介质，包括通过探针采集模型采集各个解码器层输出的高维中间特征并进行降维，得到低维中间特征；计算低维中间特征与有害特征中心之间的第一距离，以及与安全特征中心之间的第二距离，根据第一距离与第二距离之间的差值，得到向量距离差异，判断是否存在越狱攻击风险；响应于存在风险，以关键层的向量距离差异的最大化为目标函数，构建扰动优化模型，得到最优扰动项，并添加至对应的高维中间特征，得到安全中间特征。本发明提高了电力系统中大语言模型的实时动态防御能力、可解释性和计算效率，实现了大语言模型的对抗调整与稳定性之间的有效平衡。

技术关键词

大语言模型解码器特征提取模块基准探针前馈神经网络线性插值法风险防御系统转换器处理器参数计算机设备电力系统可读存储介质文本存储器策略注意力