一种基于多粒度变体生成与风格免疫的文本风格后门防御方法

申请号：CN202510665104

申请日期：2025-05-22

公开号：CN120744910A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于多粒度变体生成与风格免疫的文本风格后门防御方法，该方法通过结合显式和隐式特征捕捉文本风格与内容；利用大语言模型在词法、句法、风格、上下文等多个粒度上生成高质量的文本变体；并基于多维风险评估对可疑样本进行标签修正，利用风格中和变体等进行投票决策；最后通过风格不变表示学习、风格分离和风格对比训练，提升模型对风格变化的鲁棒性。本发明无需显式检测触发器，能有效防御包括风格后门在内的多种攻击，并通过系统性框架和自适应策略，在保证模型正常性能的同时，显著提升其安全性和鲁棒性。

技术关键词

风格后门文本大语言模型标签特征分析提取样本训练数据处理模板语义特征损失函数优化高风险鲁棒性编码器策略机制决策在线