摘要
本申请实施例公开了一种提取跨页表格数据的方法和装置,该方法包括以下步骤:解析OFD中的页面对象,提取文本信息以及线段信息;将提取的线段分类为水平线段组和垂直线段组,合并第一页和第二页的线段数据和文本数据,形成统一的线段数据组和文本数据组;从合并的线段数据组中识别表格结构,通过检测水平线段与垂直线段的相交,形成交点网格,并基于相邻交点构建矩形单元格,形成单元格组;通过判断每个文本字符的矩形边界是否位于单元格边界内,提取每个单元格关联的文本。本申请实施例通过矢量化识别表格,对跨页表格内的文字进行提取,能够处理复杂的页面布局、多变的表格结构以及潜在的数据连续性问题,进而提高提取结果的一致性和准确性。