基于深度学习的智能文档脱敏工具及方法

申请号：CN202411540126

申请日期：2024-10-31

公开号：CN119475420A

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开基于深度学习的智能文档脱敏工具及方法，将待处理的Word文档转换为结构化数据；通过深度学习模型和自然语言处理技术记录敏感信息的类型、位置和上下文环境，利用训练好的深度学习模型对识别出的敏感信息分析判断其在文档中的功能和重要性；需要保持上下文一致性的语义元素，从虚拟要素库中选取匹配的替代词或短语进行统一替换，确保文本的连贯性和逻辑性；比对脱敏前后结构化数据，确保涉及的敏感信息已被正确处理；同时利用自然语言理解技术，评估脱敏后文本的可读性和语义连贯性。本发明既能有效应对日益复杂的隐私保护挑战，又能充分挖掘和利用数据潜在价值。

技术关键词

智能文档自然语言理解技术深度学习模型脱敏方法脱敏策略语义数据降维技术敏感信息识别文本脱敏规则日志标记单元记录单元元素复杂度布局格式逻辑