一种面向多语种文本图像的跨语种描述生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向多语种文本图像的跨语种描述生成方法
申请号:CN202411631533
申请日期:2024-11-15
公开号:CN119516548B
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种面向多语种文本图像的跨语种描述生成方法,其步骤包括:1获取多语种的文本图像并进行描述语句的标注;2构建面向多语种文本图像的跨语种描述生成网络;3构造多模态文本纠错任务的数据集,对描述生成网络中的部分模块进行预训练;4基于多语种文本图像描述生成数据集对网络的所有模块进行训练;5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下,对输入的多语种自然场景文本图像进行深度理解,输出多语种文本图像指定语种的描述语句。
技术关键词
信息编码 文本 生成方法 多模态 图像 视觉特征 序列 解码模块 识别标签 语句 字符分类器 更新网络参数 识别模块 语义 纠错 可读存储介质