一种针对对抗性攻击的人工智能模型安全防御方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种针对对抗性攻击的人工智能模型安全防御方法
申请号:CN202510889159
申请日期:2025-06-30
公开号:CN120429874B
公开日期:2025-09-09
类型:发明专利
摘要
本发明公开一种针对对抗性攻击的人工智能模型安全防御方法,属于人工智能安全领域。该方法利用过滤器、归纳模型和安全分类器层层过滤,提升在对抗性攻击下人工智能模型的安全性。先将提示输入样本模型生成预回答。然后过滤器对预回答进行过滤,拒绝普通的有害提示和样本模型无法识别的对抗性攻击,保留高质量的预回答。接着把预回答输入归纳模型输出总结,归纳模型能够把回答转换成对应问题。最后让安全分类器对总结进行判别,若输出为有害则拒绝提示,若输出为无害则允许被保护的人工智能模型处理提示。本发明通过多层处理,实现对对抗性攻击的解析和拒绝,在保持受保护的人工智能模型的性能的同时,有效增强了模型的对对抗性攻击的防护能力。
技术关键词
人工智能模型 对抗性 分类器 更新模型参数 序列 受保护 训练集 过滤器 损失函数优化 样本 输入解码器 优化器 护栏 矩阵 编码器 阶段 数据