一种基于深度学习的PDF文档智能识别与内容抽取方法

申请号：CN202511309941

申请日期：2025-09-15

公开号：CN120808373B

公开日期：2025-12-12

类型：发明专利

摘要

本发明公开了一种基于深度学习的PDF文档智能识别与内容抽取方法，涉及人工智能、深度学习、计算机视觉和文档图像处理技术领域，包括：得到每个表格在PDF整页图像中的定位表格区域；得到基础网格结构；得到具有跨行或跨列结构的单元格；利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复，得到修复后的表格结构；对修复后的表格结构中每个逻辑单元格进行文本识别，并绑定每个逻辑单元格对应的行列位置信息，得到可输出为预设结构化格式的表格内容。本发明能够有效处理扫描件、图片等多种形式的PDF表格，适应不同的表格样式、字体及背景，降低了对输入图像质量的要求，确保了高精度的表格识别与内容提取。

技术关键词

内容抽取方法逻辑表格区域识别一致性检测文档图像处理技术文本识别执行光学字符识别定位框序列评分机制结构先验知识加权编辑距离网格卷积神经网络提取视觉特征