摘要
本发明公开了一种基于隐藏特征的在线触发过滤器文本后门防御方法,涉及人工智能安全技术领域,包括步骤:获取文本分类数据集D1、子数据集D2和分类神经网络;用D1训练分类神经网络得到文本分类模型;毒化D2得到毒化数据集D3;构造后门数据集D4对文本分类模型进行后门攻击得到后门模型;基于后门模型隐藏层的隐藏层数据和触发词所在位置构造触发数据集D5;用D5训练触发检测器模型;对待过滤文本中触发词进行检测、过滤。本发明无需依赖被攻击算法的具体信息,通过识别隐藏特征和词替换技术增强了对各类触发器的鉴别能力,同时确保了受保护模型在处理良性样本时的正常运行效能,提高了整体系统的安全性与可靠性。