基于多语种多模态表征学习的跨语种文本图像检索方法

申请号：CN202411631502

申请日期：2024-11-15

公开号：CN119513348B

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种基于多语种多模态表征学习的跨语种文本图像检索方法，包括：1获取英文文本图像及其对应的图像描述并构成多模态数据集合；2构建用于生成多语种文本图像的图像合成模型；3合成多语种的自然场景文本图像；4构建用于多语种自然场景文本图像表征学习的神经网络；5对网络执行预训练任务：以文本图像中文本区域的视觉信息为线索，跨语种地恢复描述句子中被掩码的文本；6对网络进行跨语种的描述语句与场景文本图像之间的匹配训练，得到训练后的多语种多模态表征模型；7利用表征模型对任意输入的多语种文本图像进行表征，进行文本图像的跨语种跨模态检索。本发明能为自然场景文本图像的跨语种跨模态检索提供支撑。

技术关键词

图像检索方法多模态语句图像检索模型信息编码笔画自然场景场景文本图像文字区域图像线性分类器识别模块真实感样本采样器视觉字符识别