基于注意力毒化的动态触发器文本后门攻击方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于注意力毒化的动态触发器文本后门攻击方法
申请号:CN202510538647
申请日期:2025-04-27
公开号:CN120407794A
公开日期:2025-08-01
类型:发明专利
摘要
本发明公开了一种基于注意力毒化的动态触发器文本后门攻击方法,属于人工智能安全技术领域,包括获取文本分类数据集D1、子数据集D2和分类神经网络;用D1训练分类神经网络得到文本分类模型;基于MLM任务、过滤阈值、综合评分和触发器选择模型构造毒化数据集D3;对文本分类模型和触发器选择模型进行联合后门训练;基于训练好的模型生成最终毒性样本。本发明在联合后门训练时不仅改变了后门模型权重,还增强了触发器选择模型的能力,使其能够更精准地选择具有更强毒性效果的触发词,并用触发器选择模型的输出控制后门模型中注意力层的输出,以此达成更为有效的毒化。这一创新性方法不仅加强了后门攻击的效果,也增加了其检测难度。
技术关键词
分类神经网络 文本分类模型 动态触发器 后门 样本 注意力 标签 预测类别 创新性方法 数据 矩阵 编码 超参数 元素 标记 阶段