PDF的目录提取方法、PDF的目录提取设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
PDF的目录提取方法、PDF的目录提取设备及介质
申请号:CN202511027670
申请日期:2025-07-24
公开号:CN120911417A
公开日期:2025-11-07
类型:发明专利
摘要
本申请公开了一种PDF的目录提取方法、PDF的目录提取设备及介质,涉及文档目录识别技术领域,公开了PDF的目录提取方法,包括:提取目录页中每一目录行的语义信息以及目录行结构;基于语义信息以及目录行结构,计算每一目录行的目录条;根据每一目录行对应的目录条进行目录聚合处理,得到目标目录行;基于目标目录行对应的目录行结构和语义信息,确定每一目标目录行的目录层级;根据深度学习模型提取每一目录目录行的目录实体,并输出目录页对应的结构化目录。通过语义信息和目录行结构计算实际的目录类别,以便基于准确的类别进行目录行聚合处理,并确定每一目录行的层级,确保了目录结构的逻辑一致性,以此提高目录提取的准确性和提取效率。
技术关键词
目录提取方法 双流神经网络 深度学习模型 语义特征 层级 分类器 融合特征 主题 字体 实体 图谱 处理器 可读存储介质 文本 存储器 依序 逻辑