PDF的目录提取方法、PDF的目录提取设备及介质

申请号：CN202511027670

申请日期：2025-07-24

公开号：CN120911417A

公开日期：2025-11-07

类型：发明专利

摘要

本申请公开了一种PDF的目录提取方法、PDF的目录提取设备及介质，涉及文档目录识别技术领域，公开了PDF的目录提取方法，包括：提取目录页中每一目录行的语义信息以及目录行结构；基于语义信息以及目录行结构，计算每一目录行的目录条；根据每一目录行对应的目录条进行目录聚合处理，得到目标目录行；基于目标目录行对应的目录行结构和语义信息，确定每一目标目录行的目录层级；根据深度学习模型提取每一目录目录行的目录实体，并输出目录页对应的结构化目录。通过语义信息和目录行结构计算实际的目录类别，以便基于准确的类别进行目录行聚合处理，并确定每一目录行的层级，确保了目录结构的逻辑一致性，以此提高目录提取的准确性和提取效率。

技术关键词

目录提取方法双流神经网络深度学习模型语义特征层级分类器融合特征主题字体实体图谱处理器可读存储介质文本存储器依序逻辑