一种具有语义引导的高效场景文本图像超分辨率方法

申请号：CN202410702281

申请日期：2024-06-02

公开号：CN118608385A

公开日期：2024-09-06

类型：发明专利

摘要

本发明属于计算机图像处理领域，具体为一种具有语义引导的高效场景文本图像超分辨率方法。本发明方法包括：将图像输入CNN编码器和特征融合模块，准确提取图像的视觉特征，将视觉特征与高级指导信息进行融合，输入到顺序残差块，以像素重组的方式生成超分辨率图像；其中：高级指导信息是通过先将图像输入文本识别模型并进行自注意力计算，得到语义特征，再将语义特征输入到由自注意力和交叉注意力机制组成的视觉‑语义对齐模块中通过交叉注意力机制进行对齐得到；本发明提出的方法能够高效重建超分辨率场景文本图像，并且模型以更少的计算成本实现了优异的性能。

技术关键词

场景文本图像超分辨率方法文本识别模型交叉注意力机制语义特征对齐模块编码器生成超分辨率图像分支融合视觉特征生成高分辨率字符阶段