一种基于预训练模型和混合模型架构的敏感信息处理方法及系统
申请号:CN202510238647
申请日期:2025-02-28
公开号:CN120162835A
公开日期:2025-06-17
类型:发明专利
摘要
本发明公开了一种基于预训练模型和混合模型架构的敏感信息处理方法及系统,涉及数据安全与隐私保护技术领域。包括:S1.数据集构建;S2.数据集预处理;S3.数据划分;S4.模型构建和训练;S5.定位敏感信息;S6.遗忘敏感信息。本发明在模型性能上,非结构化敏感信息文本识别模型采用词汇级别和字符级别标记化处理及特征增强,显著增强了对敏感信息的识别能力,同时提高了模型对不同非结构化文本的适应性;在数据安全与隐私保护层面,基于梯度信息关键区域分析确定文本中的敏感实体擦除区域,实现敏感信息的精确遗忘,避免过度遗忘,保障数据安全合规。
技术关键词
敏感信息处理方法
文本识别模型
预训练模型
实体
信息模块
非结构化文本
解码器
隐私保护技术
保障数据安全
输入端
信息处理系统
序列
模板
处理单元
训练集
标签