一种基于图像全局信息查询解码的文本识别方法

申请号：CN202411664385

申请日期：2024-11-20

公开号：CN119540960B

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种基于图像全局信息查询解码的文本识别方法。该方法通过引入全局图像信息作为解码器解码条件，在所有时间步中共享，并通过自注意力机制实现对共享的全局图像信息的自适应变换，进而在交叉注意力层中检索每个时间步对应的字符级特征；同时，提出了一系列的编码约束组件，缓解了构建的文本识别器在多语言识别中面临的全局图像特征质量不一致问题。本发明在多语言文本图像识别(中文、英文)和多场景文本图像识别(自然场景、网络文本)等任务中显示出有效性和通用性，取得了显著的非规则文本图像识别性能提升。

技术关键词

图像全局信息文本识别方法图像全局特征字符文本图像识别图像特征提取线性变换矩阵线性分类器注意力文本图像编码多层感知机对齐模块识别标签解码模块解码器