用于自然语言处理模型后门攻击防御的处理方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于自然语言处理模型后门攻击防御的处理方法和装置
申请号:CN202510913646
申请日期:2025-07-03
公开号:CN120409615B
公开日期:2025-09-12
类型:发明专利
摘要
本发明涉及计算机技术应用领域,特别是涉及一种用于自然语言处理模型后门攻击防御的处理方法和装置,方法包括:利用数据增强方式生成文本样本的不同视图对自然语言处理模型进行第一阶段训练以及利用干净文本数据对模型进行第二阶段训练。本发明能够让模型学习文本样重要的特征,忽略小扰动对样本内容的干扰,破坏攻击者构建的触发器与目标类别之间的强联系,能够降低触发器对模型决策的干扰和增强模型鲁棒性,确保有效防御后门攻击的同时,保持模型分类任务的性能。
技术关键词
卷积特征提取 数据处理模型 自然语言 标记特征 加权特征 输出特征 后门 文本 编码器 数据获取模块 特征值 样本 鲁棒性 注意力 参数 决策