一种针对对抗性攻击的人工智能模型安全防御方法

申请号：CN202510889159

申请日期：2025-06-30

公开号：CN120429874B

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开一种针对对抗性攻击的人工智能模型安全防御方法，属于人工智能安全领域。该方法利用过滤器、归纳模型和安全分类器层层过滤，提升在对抗性攻击下人工智能模型的安全性。先将提示输入样本模型生成预回答。然后过滤器对预回答进行过滤，拒绝普通的有害提示和样本模型无法识别的对抗性攻击，保留高质量的预回答。接着把预回答输入归纳模型输出总结，归纳模型能够把回答转换成对应问题。最后让安全分类器对总结进行判别，若输出为有害则拒绝提示，若输出为无害则允许被保护的人工智能模型处理提示。本发明通过多层处理，实现对对抗性攻击的解析和拒绝，在保持受保护的人工智能模型的性能的同时，有效增强了模型的对对抗性攻击的防护能力。

技术关键词

人工智能模型对抗性分类器更新模型参数序列受保护训练集过滤器损失函数优化样本输入解码器优化器护栏矩阵编码器阶段数据