一种纸质水文年鉴表格结构化识别方法、设备和存储介质
申请号:CN202510415351
申请日期:2025-04-03
公开号:CN119919953B
公开日期:2025-12-16
类型:发明专利
摘要
本发明提供了一种纸质水文年鉴表格结构化识别方法,包括如下步骤:获取纸质水文年鉴的扫描文件并转换为图片文件;获取每张转换后的图片文件中的表格图像及其属性信息;对获取的表格图像进行图像预处理、校正和超分辨率转换;对转换后的表格图像进行直线检测,生成表格单元格;对生成的表格单元格进行合并单元格及多层嵌套结构的识别;识别表格图像中的文字,获取每个文字区域的边界框,并将获取的文字区域的边界框与其最近邻的单元格进行匹配;将文字匹配后的单元格的坐标转换成行列序号,映射至Excel表格形式,并将文字识别结果填充至Excel表格单元格中;对填充后的Excel表格进行通用校验和水文年鉴数据合规性校验,并于校验通过后作为最终识别结果。
技术关键词
结构化识别方法
合并单元格
水文
图像
嵌套结构
图片
直线
文字识别算法
生成表格
合规性
区域检测算法
坐标
线条
分辨率
校正
计算机
膨胀算法
字符
工作表