一种利用大数据追溯机密文件泄露的方法

申请号：CN202510141928

申请日期：2025-02-09

公开号：CN119577843B

公开日期：2025-05-09

类型：发明专利

摘要

本申请涉及信息安全领域，其具体地公开了一种利用大数据追溯机密文件泄露的方法，其采用文件识别技术分别从疑似泄露文件和原始机密文件中提取出文件内容，并引入基于深度学习对疑似泄露文件内容和原始机密文件内容进行上下文语义解析，以提取出疑似泄露文件内容和原始机密文件内容的语义特征，进而，通过对两者进行基于双向注意力机制的细粒度语义对比分析，来揭示两者之间的深层次语义相似性和差异性，以判断疑似泄露文件是否为原始机密文件的变种。这样，通过对疑似泄露文件和原始机密文件进行上下文语义层面的细粒度对比分析，能够更准确地捕捉到经过各种处理后的泄露文件与原始机密文件之间的关联，提高了机密文件泄露追溯的准确性和可靠性。

技术关键词

编码向量特征值大数据校验模块文件识别技术双向注意力机制语义特征分类器平方根超参数语义层面基元标签元素