摘要
本发明公开的一种基于信息熵的文件防脱敏自学习识别系统及方法,属于自然语言处理与内容安全识别交叉的技术领域,应用于多任务场景下的文档筛选与风险识别。本发明实现方法为:1、对原始文件经过字符识别和降噪处理形成数据集;2、通过小样本训练带标签样本数据分别采用数据滑动窗口和信息熵的概率分布进行最值归一化筛选,进而利用拟合后的线性回归模型形成防脱敏词表;3、采用字典树Trie结构对数据集句段的防脱敏度进行筛选,形成防脱敏句段表;4、利用大模型对章级防脱敏度的数据集文本片段进行标记;5、将被标记的防脱敏文件的防脱敏词、防脱敏度生成防脱敏报告;与现有技术相比,本发明提升了对防脱敏文件筛选的准确率。