一种基于视觉-语言多模态的船牌识别方法

申请号：CN202510611737

申请日期：2025-05-13

公开号：CN120635876A

公开日期：2025-09-12

类型：发明专利

摘要

一种基于视觉‑语言多模态的船牌识别方法，包括以下步骤：S1：通过图像采集设备获取待识别区域的原始图像；S2：对采集的图像进行超分辨重建和数据增强预处理，生成船牌识别数据集；S3：构建视觉‑语言多模态的船牌识别模型，模型包括视觉模块、语言模块和融合模块；S4：将S2生成的数据集输入到视觉模块进行预训练；S5：利用船牌语料库进行语言模块预训练；S6：加载S4和S5得到的预训练权重，将S2生成的数据集输入到船牌识别模型进行，采用门控融合策略动态加权视觉特征与语言特征，生成多模态联合表征，通过多模态融合损失函数对船牌识别模型进行优化。本发明有效地提高了船牌识别的准确率，提升对遮挡、模糊图像的适应性。

技术关键词

语言模块多模态字符识别方法船牌注意力机制图像采集设备大规模文本数据内河船舶分辨率融合视觉特征融合策略划分方法序列