一种基于交互式局部注意力控制的分阶段OCR模型构建方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于交互式局部注意力控制的分阶段OCR模型构建方法
申请号:CN202511096036
申请日期:2025-08-06
公开号:CN120997845A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于交互式局部注意力控制的分阶段OCR模型构建方法,解决了VIT模型识别率低的问题,属于计算机视觉领域;包括:将包含位置信息的OCR图像数据集作为训练集;构建任务需求对应的掩码矩阵;采用ViT模型作为基础模型,基于PAN和SPP形成本体特征图;基于掩码矩阵构建无效区域;划分为Patch并加入二维RoPE相对位置编码,通过Transformer Encoder送入Ernie自回归Decoder作键值,生成头为全连接LM Head,得到OCR模型;首阶段对训练集进行训练,次阶段对掩码矩阵进行训练,得到训练好的分阶段OCR模型;本发明提高了小目标识别能力。
技术关键词
掩码矩阵 多头注意力机制 模型构建方法 空间金字塔池化 分阶段 字符 分支 训练集 图像 前馈神经网络 分辨率 上下文特征 键值 编码 序列 层级 线性单元 尺寸