一种文本识别的方法、模型训练方法、设备及存储介质

申请号：CN202510341576

申请日期：2025-03-21

公开号：CN120260054A

公开日期：2025-07-04

类型：发明专利

摘要

本申请公开一种文本识别的方法、模型训练方法、设备及存储介质，涉及光学字符识别技术领域，该方法包括：获取样本图像以及对应的标签文本框信息和标签文本信息；将样本图像输入到单视觉模型和残差网络模型，得到第一样本文本框信息和第一样本文本信息；将样本图像和处理要求输入到多模态AI大模型，得到第二样本文本框信息和第二样本文本信息；根据标签文本框信息、第一样本文本框信息、第二样本文本框信息、标签文本信息、第一样本文本信息和第二样本文本信息，确定蒸馏损失值，从而对文本识别模型的参数进行更新；将待识别图像输入到文本识别模型，得到文本识别结果。该方法能够提高文本识别的泛化能力，扩大文本识别的应用场景。

技术关键词

样本标签文本残差网络模型文本识别模型模型训练方法图像融合特征注意力机制光学字符识别技术蒸馏可读存储介质存储计算机程序计算机视觉多模态模块存储器