基于文档布局分析的多层级文本矫正方法、系统

申请号：CN202511461255

申请日期：2025-10-14

公开号：CN120932245B

公开日期：2025-12-26

类型：发明专利

摘要

本发明涉及人工智能在文档图像处理中的应用技术领域，公开了一种基于文档布局分析的多层级文本矫正方法、系统，包括：结合多尺度自相似性特征算法与方向性频域峰值特征算法判别待校正图像的类型，并进行适应性预处理得到标准化图像；提取标准化图像中的文本连通域，利用无监督聚类技术对文本连通域中的每个符号进行聚类得到若干词簇，合并词簇形成文本块，获取每个文本块的最小外接四边形得到对应的文本框；分别获取每个文本框的中心点坐标，判定两个文本框是否为同一行文本；对文本框执行水平对齐和倾斜修正；对旋转后的文本框中的字符进行形态规整处理；输出校正后的图像以及结构化的JSON数据。本发明具备了极强的适应性。

技术关键词

矫正方法无监督聚类文本行层级校正布局符号字符抗锯齿坐标顶点像素多尺度文档图像处理四边形间距算法