摘要
本申请涉及信息安全领域,其具体地公开了一种利用大数据追溯机密文件泄露的方法,其采用文件识别技术分别从疑似泄露文件和原始机密文件中提取出文件内容,并引入基于深度学习对疑似泄露文件内容和原始机密文件内容进行上下文语义解析,以提取出疑似泄露文件内容和原始机密文件内容的语义特征,进而,通过对两者进行基于双向注意力机制的细粒度语义对比分析,来揭示两者之间的深层次语义相似性和差异性,以判断疑似泄露文件是否为原始机密文件的变种。这样,通过对疑似泄露文件和原始机密文件进行上下文语义层面的细粒度对比分析,能够更准确地捕捉到经过各种处理后的泄露文件与原始机密文件之间的关联,提高了机密文件泄露追溯的准确性和可靠性。