基于优化多模态视觉与语言处理的场景文本识别方法

申请号：CN202510333961

申请日期：2025-03-20

公开号：CN120182958A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了一种基于优化多模态视觉与语言处理的场景文本识别方法，首先，将图像数据归一化；然后将预处理后的数据输入到优化的视觉模型中。视觉模型通过卷积‑Transformer混合神经网络提取多尺度空间和语义特征，并利用多尺度注意力机制以增强特征表达能力；语言模型对视觉模型输出的字符概率向量进行校正，并引入可学习位置编码来优化特征的表示。通过设计双向多模态交互模块，融合视觉和语言特征，使用自适应融合机制生成高质量的多模态联合特征表示。在应用阶段，通过高效的推理框架对优化后的模型进行部署，显著提升场景文本识别的速度与准确性。

技术关键词

场景文本识别方法交叉注意力机制多模态交互前馈神经网络字符卷积模块模态特征全局平均池化多尺度注意力机制归一化模块 sigmoid函数融合视觉特征