摘要
本发明提供一种高精度表格数据结构化的OCR识别方法及系统,包括:将原始图像转换为灰度图像并进行预处理;提取表格边缘结构线并填补断裂部分;检测预处理图像中纵横直线并计算交点,确定表格行列结构;划分单元格区域并定位生成单元格坐标矩阵;将单元格内像素划分为边框影响区与有效数据区,边框影响区执行邻域均值滤波与加权融合操作;有效数据区进行字符及符号的端到端检测,输出带坐标的OCR识别结果;基于单元格坐标矩阵和OCR识别结果,动态生成表格结构模板,通过规则推测策略匹配字段类型,并基于相邻单元格信息处理合并单元格缺失数据,输出结构化数据。本发明提升了OCR技术的可靠性与准确性,满足了自动化信息处理对高精度数据提取的需求。