基于Swin-Transformer的满文印刷体文档识别方法及系统
申请号:CN202510954574
申请日期:2025-07-11
公开号:CN120689887A
公开日期:2025-09-23
类型:发明专利
摘要
本发明涉及一种基于Swin‑Transformer的满文印刷体文档识别方法及系统,属于光学字符识别技术领域。该方法通过数据预处理、Swin Transformer编码及解码器等步骤,实现了满文印刷体文档的高效识别。其中,数据预处理步骤对输入图像进行分割、线性映射及位置编码;Swin Transformer编码器采用窗口自注意力机制与移动窗口机制,有效捕获图像局部与跨窗口信息,并通过层次结构提取多尺度特征;解码器则基于编码器输出特征逐步解码,并集成特征提取分析模块以优化预测过程。本发明提出的Swin‑Manchu OCR模型在满文印刷体文档识别任务中准确率显著优于现有模型,具有广泛的应用前景。
技术关键词
文档识别方法
印刷体
图像块
注意力
编码器
分析模块
文档识别系统
编码模块
图像分割
光学字符识别技术
生成预测图像
输出特征
输入解码器
线性
多尺度特征