一种基于分块并行的超大幅面文档智能识别方法及系统

申请号：CN202510152368

申请日期：2025-02-12

公开号：CN119625766B

公开日期：2025-05-09

类型：发明专利

摘要

本发明提供了一种基于分块并行的超大幅面文档智能识别方法及系统，包括以下步骤：获取待识别文档的图像数据；采用自适应分块策略，根据系统可用内存或者图像特征进行动态分块，相邻块之间保持一定的重叠区域，再将分块任务转化为异步任务队列；使用线程池并行处理各个分块，或者采用分布式计算架构将任务分配到多个计算节点上执行；检测文本区域和表格结构，通过文本识别模型对检测到的文本区域进行文本识别；收集各个分块的处理结果，根据记录的位置信息进行合并；根据文本识别模型输出的识别结果进行置信度打分来优化文本区域，对优化后的文本进行可视化处理和版面分析，生成标准格式的输出结果。

技术关键词

智能识别方法文本识别模型分块策略分布式计算架构图像数据预处理标记置信度坐标多边形格式轮廓数据接收模块生成表格索引队列