一种基于深度学习的PDF文档智能识别与内容抽取方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于深度学习的PDF文档智能识别与内容抽取方法
申请号:CN202511309941
申请日期:2025-09-15
公开号:CN120808373B
公开日期:2025-12-12
类型:发明专利
摘要
本发明公开了一种基于深度学习的PDF文档智能识别与内容抽取方法,涉及人工智能、深度学习、计算机视觉和文档图像处理技术领域,包括:得到每个表格在PDF整页图像中的定位表格区域;得到基础网格结构;得到具有跨行或跨列结构的单元格;利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复,得到修复后的表格结构;对修复后的表格结构中每个逻辑单元格进行文本识别,并绑定每个逻辑单元格对应的行列位置信息,得到可输出为预设结构化格式的表格内容。本发明能够有效处理扫描件、图片等多种形式的PDF表格,适应不同的表格样式、字体及背景,降低了对输入图像质量的要求,确保了高精度的表格识别与内容提取。
技术关键词
内容抽取方法 逻辑 表格区域识别 一致性检测 文档图像处理技术 文本识别 执行光学字符识别 定位框 序列 评分机制 结构先验知识 加权编辑距离 网格 卷积神经网络提取 视觉特征