摘要
本发明公开了一种基于注意力毒化的动态触发器文本后门攻击方法,属于人工智能安全技术领域,包括获取文本分类数据集D1、子数据集D2和分类神经网络;用D1训练分类神经网络得到文本分类模型;基于MLM任务、过滤阈值、综合评分和触发器选择模型构造毒化数据集D3;对文本分类模型和触发器选择模型进行联合后门训练;基于训练好的模型生成最终毒性样本。本发明在联合后门训练时不仅改变了后门模型权重,还增强了触发器选择模型的能力,使其能够更精准地选择具有更强毒性效果的触发词,并用触发器选择模型的输出控制后门模型中注意力层的输出,以此达成更为有效的毒化。这一创新性方法不仅加强了后门攻击的效果,也增加了其检测难度。