基于Swin-Transformer的满文印刷体文档识别方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于Swin-Transformer的满文印刷体文档识别方法及系统
申请号:CN202510954574
申请日期:2025-07-11
公开号:CN120689887A
公开日期:2025-09-23
类型:发明专利
摘要
本发明涉及一种基于Swin‑Transformer的满文印刷体文档识别方法及系统,属于光学字符识别技术领域。该方法通过数据预处理、Swin Transformer编码及解码器等步骤,实现了满文印刷体文档的高效识别。其中,数据预处理步骤对输入图像进行分割、线性映射及位置编码;Swin Transformer编码器采用窗口自注意力机制与移动窗口机制,有效捕获图像局部与跨窗口信息,并通过层次结构提取多尺度特征;解码器则基于编码器输出特征逐步解码,并集成特征提取分析模块以优化预测过程。本发明提出的Swin‑Manchu OCR模型在满文印刷体文档识别任务中准确率显著优于现有模型,具有广泛的应用前景。
技术关键词
文档识别方法 印刷体 图像块 注意力 编码器 分析模块 文档识别系统 编码模块 图像分割 光学字符识别技术 生成预测图像 输出特征 输入解码器 线性 多尺度特征