一种提取跨页表格数据的方法和装置

申请号：CN202510737055

申请日期：2025-06-04

公开号：CN120706387A

公开日期：2025-09-26

类型：发明专利

摘要

本申请实施例公开了一种提取跨页表格数据的方法和装置，该方法包括以下步骤：解析OFD中的页面对象，提取文本信息以及线段信息；将提取的线段分类为水平线段组和垂直线段组，合并第一页和第二页的线段数据和文本数据，形成统一的线段数据组和文本数据组；从合并的线段数据组中识别表格结构，通过检测水平线段与垂直线段的相交，形成交点网格，并基于相邻交点构建矩形单元格，形成单元格组；通过判断每个文本字符的矩形边界是否位于单元格边界内，提取每个单元格关联的文本。本申请实施例通过矢量化识别表格，对跨页表格内的文字进行提取，能够处理复杂的页面布局、多变的表格结构以及潜在的数据连续性问题，进而提高提取结果的一致性和准确性。

技术关键词

线段文本表格对象数据字符矩形页面网格透明度二维码对齐模块坐标系过滤模块识别模块语义连续性颜色