摘要
本申请公开了一种PDF的目录提取方法、PDF的目录提取设备及介质,涉及文档目录识别技术领域,公开了PDF的目录提取方法,包括:提取目录页中每一目录行的语义信息以及目录行结构;基于语义信息以及目录行结构,计算每一目录行的目录条;根据每一目录行对应的目录条进行目录聚合处理,得到目标目录行;基于目标目录行对应的目录行结构和语义信息,确定每一目标目录行的目录层级;根据深度学习模型提取每一目录目录行的目录实体,并输出目录页对应的结构化目录。通过语义信息和目录行结构计算实际的目录类别,以便基于准确的类别进行目录行聚合处理,并确定每一目录行的层级,确保了目录结构的逻辑一致性,以此提高目录提取的准确性和提取效率。