基于注意力毒化的动态触发器文本后门攻击方法

申请号：CN202510538647

申请日期：2025-04-27

公开号：CN120407794A

公开日期：2025-08-01

类型：发明专利

摘要

本发明公开了一种基于注意力毒化的动态触发器文本后门攻击方法，属于人工智能安全技术领域，包括获取文本分类数据集D1、子数据集D2和分类神经网络；用D1训练分类神经网络得到文本分类模型；基于MLM任务、过滤阈值、综合评分和触发器选择模型构造毒化数据集D3；对文本分类模型和触发器选择模型进行联合后门训练；基于训练好的模型生成最终毒性样本。本发明在联合后门训练时不仅改变了后门模型权重，还增强了触发器选择模型的能力，使其能够更精准地选择具有更强毒性效果的触发词，并用触发器选择模型的输出控制后门模型中注意力层的输出，以此达成更为有效的毒化。这一创新性方法不仅加强了后门攻击的效果，也增加了其检测难度。

技术关键词

分类神经网络文本分类模型动态触发器后门样本注意力标签预测类别创新性方法数据矩阵编码超参数元素标记阶段