一种PDF文件表格解析方法

申请号：CN202510580825

申请日期：2025-05-07

公开号：CN120104577B

公开日期：2025-07-08

类型：发明专利

摘要

本发明涉及一种PDF文件表格解析方法,包括以下步骤：PDF文档至图片格式转化步骤：将待解析的PDF文档页面转化为图片格式；表格区域检测步骤：将转化后的图片输入到一个预先训练的表格识别OCR模型中，该模型能够识别图片中的表格区域框范围；表格区域裁剪步骤：根据模型提供的表格位置坐标P，对原始图片进行裁剪，仅保留表格区域框部分的图片。图片至HTML格式转化步骤：采用预先训练的OCR模型识别表格图片中的表格空间结构和所包含的单元格文本信息及结构特征，然后基于提取的表格空间结构和单元格文本信息及结构特征，将其从图片格式转换为结构化的表格数据，并进一步转化为HTML格式的表格。本发明能够提高从PDF文件中提取表格信息的准确性和效率。

技术关键词

键值表格解析方法文本图片空间结构序列嵌套表格标签格式命名实体识别模型坐标点定义标记节点字符页面