基于多语种多模态表征学习的跨语种文本图像检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多语种多模态表征学习的跨语种文本图像检索方法
申请号:CN202411631502
申请日期:2024-11-15
公开号:CN119513348B
公开日期:2025-04-22
类型:发明专利
摘要
本发明公开了一种基于多语种多模态表征学习的跨语种文本图像检索方法,包括:1获取英文文本图像及其对应的图像描述并构成多模态数据集合;2构建用于生成多语种文本图像的图像合成模型;3合成多语种的自然场景文本图像;4构建用于多语种自然场景文本图像表征学习的神经网络;5对网络执行预训练任务:以文本图像中文本区域的视觉信息为线索,跨语种地恢复描述句子中被掩码的文本;6对网络进行跨语种的描述语句与场景文本图像之间的匹配训练,得到训练后的多语种多模态表征模型;7利用表征模型对任意输入的多语种文本图像进行表征,进行文本图像的跨语种跨模态检索。本发明能为自然场景文本图像的跨语种跨模态检索提供支撑。
技术关键词
图像检索方法 多模态 语句 图像检索模型 信息编码 笔画 自然场景 场景文本图像 文字区域图像 线性分类器 识别模块 真实感 样本 采样器 视觉 字符识别