一种基于图像全局信息查询解码的文本识别方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于图像全局信息查询解码的文本识别方法
申请号:
CN202411664385
申请日期:
2024-11-20
公开号:
CN119540960B
公开日期:
2025-09-26
类型:
发明专利
摘要
本发明公开了一种基于图像全局信息查询解码的文本识别方法。该方法通过引入全局图像信息作为解码器解码条件,在所有时间步中共享,并通过自注意力机制实现对共享的全局图像信息的自适应变换,进而在交叉注意力层中检索每个时间步对应的字符级特征;同时,提出了一系列的编码约束组件,缓解了构建的文本识别器在多语言识别中面临的全局图像特征质量不一致问题。本发明在多语言文本图像识别(中文、英文)和多场景文本图像识别(自然场景、网络文本)等任务中显示出有效性和通用性,取得了显著的非规则文本图像识别性能提升。
技术关键词
图像全局信息
文本识别方法
图像全局特征
字符
文本图像识别
图像特征提取
线性变换矩阵
线性分类器
注意力
文本图像编码
多层感知机
对齐模块
识别标签
解码模块
解码器