基于特征重构和一致性CTC的语义增强文本识别方法

申请号：CN202510371688

申请日期：2025-03-25

公开号：CN120299053A

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种基于特征重构和一致性CTC的语义增强文本识别方法，所述方法包括以下步骤：预先建立CTC模型；获取文本图像，基于文本图像的高度和宽高比、以及预先设置的最大宽高比对文本图像进行预处理；将预处理后文本图像生成两个不同的增强视图；将所述两个不同的增强视图输入预先训练的CTC模型进行处理；将处理结果作为文本识别结果输出。本发明为了使图像信息更好地与语音和文本融合，对图像信息进行序列学习，建立时间顺序模型对语义信息的提取，通过特征重构和语义增强技术，能提高文本识别的准确性和鲁棒性，有效解决现有技术中存在的对齐问题。

技术关键词

文本识别方法语义重构矩阵图像多头注意力机制 Softmax函数多层感知机字符视觉特征序列标签重排特征梯度下降算法前馈神经网络