摘要
本发明提供一种不规则表格结构转换为JSON文件的方法,包括获取不规则划分的原始表格文件,将原始表格文件中每一个子单元格均提取为独立节点,形成节点集合;基于节点的空间位置信息,遍历各节点存在满足预定邻接关系的邻居节点,以构建出邻接图结构;根据节点的文本内容及对应类型,计算邻接两节点之间的文本余弦相似度、文本类型匹配度评分和上下文语义评分,对邻接图结构中无语义关联的连接边进行删除;在邻接图结构中对连接边数目最小的方向进行删除并更新;根据更新后的邻接图结构中节点间保留的连接关系,解析并组织表格语义结构来生成嵌套型JSON文件。实施本发明,可高效处理复杂表格结构,提升结构化提取准确率与JSON表达的语义一致性。