档案数字化处理中的高精度OCR识别与自动纠错方法

申请号：CN202411479144

申请日期：2024-10-23

公开号：CN119007227B

公开日期：2024-12-31

类型：发明专利

摘要

本发明涉及数字化处理技术领域，具体地说，涉及档案数字化处理中的高精度OCR识别与自动纠错方法。其包括如下步骤：对档案文档的文本图像进行预处理，将预处理后的图像文本分割成单独的字符，再利用连通区域分析的方法分离粘连的字符，并从每个字符中提取关键特征；将提取的关键特征与已知的字符模板进行比对，找出最匹配的文本结果；利用基于规则的纠错和基于上下文感知的纠错，对文本结果进行检查和修正。该档案数字化处理中的高精度OCR识别与自动纠错方法能够更好地处理复杂图像，尤其是在图像中存在多个灰度级别的对象时；且能够更好地保护图像中的边缘，防止在腐蚀和膨胀过程中边缘被破坏，同时减少误分割的可能性。

技术关键词

纠错方法像素纠错文本字符模板多阈值图像分割词典文件笔画特征标签彩色图像规则集因子坐标标记元素