用于自然语言处理模型后门攻击防御的处理方法和装置

申请号：CN202510913646

申请日期：2025-07-03

公开号：CN120409615B

公开日期：2025-09-12

类型：发明专利

摘要

本发明涉及计算机技术应用领域，特别是涉及一种用于自然语言处理模型后门攻击防御的处理方法和装置，方法包括：利用数据增强方式生成文本样本的不同视图对自然语言处理模型进行第一阶段训练以及利用干净文本数据对模型进行第二阶段训练。本发明能够让模型学习文本样重要的特征，忽略小扰动对样本内容的干扰，破坏攻击者构建的触发器与目标类别之间的强联系，能够降低触发器对模型决策的干扰和增强模型鲁棒性，确保有效防御后门攻击的同时，保持模型分类任务的性能。

技术关键词

卷积特征提取数据处理模型自然语言标记特征加权特征输出特征后门文本编码器数据获取模块特征值样本鲁棒性注意力参数决策