一种高精度表格数据结构化的OCR识别方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种高精度表格数据结构化的OCR识别方法及系统
申请号:CN202511014010
申请日期:2025-07-23
公开号:CN120976948A
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供一种高精度表格数据结构化的OCR识别方法及系统,包括:将原始图像转换为灰度图像并进行预处理;提取表格边缘结构线并填补断裂部分;检测预处理图像中纵横直线并计算交点,确定表格行列结构;划分单元格区域并定位生成单元格坐标矩阵;将单元格内像素划分为边框影响区与有效数据区,边框影响区执行邻域均值滤波与加权融合操作;有效数据区进行字符及符号的端到端检测,输出带坐标的OCR识别结果;基于单元格坐标矩阵和OCR识别结果,动态生成表格结构模板,通过规则推测策略匹配字段类型,并基于相邻单元格信息处理合并单元格缺失数据,输出结构化数据。本发明提升了OCR技术的可靠性与准确性,满足了自动化信息处理对高精度数据提取的需求。
技术关键词
表格数据结构 动态生成表格 识别方法 合并单元格 坐标 图像 Gamma校正方法 边缘检测算法 自动化信息处理 非局部均值去噪 字段 霍夫变换算法 像素点 矩阵 位置编码信息 表头