一种基于图像识别的文字提取方法

申请号：CN202411445926

申请日期：2024-10-16

公开号：CN119672722A

公开日期：2025-03-21

类型：发明专利

摘要

本发明提出了一种基于图像识别的文字提取方法，利用图像采集装置获取文本图像，使用高斯低通滤波算法降噪处理，拉普拉斯算子增强图像的边缘和细节，人工检查并进行旋转调整；文本检测和内容识别分开针对训练，集成识别；强化YOLOv8回归检测头提高预测文本框的精度以及减少模型预测过程中非极大抑制操作提升效率，文本内容识别采用基于Transformer的特征融合扩展模型，通过自身特征扩展和交叉融合扩展方式提升文本识别精度，内容识别模型的训练数据集来自本文区域检测保存的结果；通过CTC损失引入“空”字符的方式对内容识别模型进行训练。本发明可以有效识别文本图像，提高了模型检测速度和精度。

技术关键词

文字提取方法文本检测模型文本识别字符检测头拉普拉斯多头注意力机制多分支前馈神经网络图像采集装置精度标签扩展模块数据