一种基于交互式局部注意力控制的分阶段OCR模型构建方法
申请号:CN202511096036
申请日期:2025-08-06
公开号:CN120997845A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于交互式局部注意力控制的分阶段OCR模型构建方法,解决了VIT模型识别率低的问题,属于计算机视觉领域;包括:将包含位置信息的OCR图像数据集作为训练集;构建任务需求对应的掩码矩阵;采用ViT模型作为基础模型,基于PAN和SPP形成本体特征图;基于掩码矩阵构建无效区域;划分为Patch并加入二维RoPE相对位置编码,通过Transformer Encoder送入Ernie自回归Decoder作键值,生成头为全连接LM Head,得到OCR模型;首阶段对训练集进行训练,次阶段对掩码矩阵进行训练,得到训练好的分阶段OCR模型;本发明提高了小目标识别能力。
技术关键词
掩码矩阵
多头注意力机制
模型构建方法
空间金字塔池化
分阶段
字符
分支
训练集
图像
前馈神经网络
分辨率
上下文特征
键值
编码
序列
层级
线性单元
尺寸