摘要
本发明公开一种针对对抗性攻击的人工智能模型安全防御方法,属于人工智能安全领域。该方法利用过滤器、归纳模型和安全分类器层层过滤,提升在对抗性攻击下人工智能模型的安全性。先将提示输入样本模型生成预回答。然后过滤器对预回答进行过滤,拒绝普通的有害提示和样本模型无法识别的对抗性攻击,保留高质量的预回答。接着把预回答输入归纳模型输出总结,归纳模型能够把回答转换成对应问题。最后让安全分类器对总结进行判别,若输出为有害则拒绝提示,若输出为无害则允许被保护的人工智能模型处理提示。本发明通过多层处理,实现对对抗性攻击的解析和拒绝,在保持受保护的人工智能模型的性能的同时,有效增强了模型的对对抗性攻击的防护能力。