一种基于不可学习样本的文本数据保护方法和装置

申请号：CN202410824636

申请日期：2024-06-25

公开号：CN118821209A

公开日期：2024-10-22

类型：发明专利

摘要

本发明涉及人工智能大数据隐私保护技术领域，特别是涉及一种基于不可学习样本的文本数据保护方法和装置，本发明基于不可学习样本的生成机理，提出了文本数据的不可学习样本生成方法，为文本数据保护提供了新的实现思路；本发明基于同义词替换的策略以及不可学样本的生成机理为原始样本生成微噪声，保证了词性相同以及满足词汇、语法和语义的约束，保证生成高语义相似度的不可学习样本；相比于随机选择单词添加扰动，能更高效的生成不可学习样本，提升了算法的效率。同时，生成的不可学习样本不改变语义，基本不影响用户的阅读，但能显著降低使用不可学习样本训练的模型的性能，保护了数据隐私不被泄露。

技术关键词

文本分类模型数据保护方法同义词数据保护装置语义计算机可执行指令度计算方法人工智能大数据算法噪声错误率隐私保护技术样本生成方法词汇数据库计算机存储介质参数