摘要
本发明涉及数字化处理技术领域,具体地说,涉及档案数字化处理中的高精度OCR识别与自动纠错方法。其包括如下步骤:对档案文档的文本图像进行预处理,将预处理后的图像文本分割成单独的字符,再利用连通区域分析的方法分离粘连的字符,并从每个字符中提取关键特征;将提取的关键特征与已知的字符模板进行比对,找出最匹配的文本结果;利用基于规则的纠错和基于上下文感知的纠错,对文本结果进行检查和修正。该档案数字化处理中的高精度OCR识别与自动纠错方法能够更好地处理复杂图像,尤其是在图像中存在多个灰度级别的对象时;且能够更好地保护图像中的边缘,防止在腐蚀和膨胀过程中边缘被破坏,同时减少误分割的可能性。