摘要
本申请关于一种基于语义偏移的对抗样本生成方法以及系统。该方法包括:获取原始样本;将原始样本输入对抗生成模型,得到对抗样本;将原始样本输入大语言模型,得到第一语义特征;对对抗样本进行文本特征提取,得到第二语义特征;根据语义损失函数计算第一语义特征和第二语义特征的语义损失;根据语义损失优化对抗生成模型,直至训练完成。本申请通过原始样本和对抗样本之间的语义相似度来构建语义损失函数,最后通过语义损失函数的梯度回传来优化对抗生成模型。因此,本申请能够利用大语言模型生成的深层语义信息,来优化对抗样本的语义特征,使对抗样本远离原始样本的语义空间,从而显著提升了对抗样本应对各种分类器的攻击成功率。