大语言模型越狱攻击的防御方法、系统、设备和存储介质
申请号:CN202510906950
申请日期:2025-07-02
公开号:CN120408608B
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及模型防御技术领域,公开了一种大语言模型越狱攻击的防御方法、系统、设备和存储介质,包括通过探针采集模型采集各个解码器层输出的高维中间特征并进行降维,得到低维中间特征;计算低维中间特征与有害特征中心之间的第一距离,以及与安全特征中心之间的第二距离,根据第一距离与第二距离之间的差值,得到向量距离差异,判断是否存在越狱攻击风险;响应于存在风险,以关键层的向量距离差异的最大化为目标函数,构建扰动优化模型,得到最优扰动项,并添加至对应的高维中间特征,得到安全中间特征。本发明提高了电力系统中大语言模型的实时动态防御能力、可解释性和计算效率,实现了大语言模型的对抗调整与稳定性之间的有效平衡。
技术关键词
大语言模型
解码器
特征提取模块
基准
探针
前馈神经网络
线性插值法
风险
防御系统
转换器
处理器
参数
计算机设备
电力系统
可读存储介质
文本
存储器
策略
注意力