基于语法结构嵌入学习的多样可控图像描述方法

申请号：CN202410882080

申请日期：2024-07-03

公开号：CN118862959B

公开日期：2025-08-26

类型：发明专利

摘要

本发明提供了一种基于语法结构嵌入学习的多样可控图像描述方法，包括以下步骤：步骤S100，获取图像的视觉特征和文本的语义特征；步骤S200，对视觉特征和文本语义特征分别进行先验近似子网络和后验近似子网络的学习获得先验潜在变量和后验潜在变量，获取先验潜在变量和后验潜在变量之间的KL散度；步骤S300，利用视觉特征、先验潜在变量和后验潜在变量和一系列[MASK]作为输入，采用非自回归目标函数预测词性标注；步骤S400，利用视觉特征先验潜在变量和后验潜在变量和文本生成描述，获取图像描述生成优化目标；步骤S500，对非自回归目标、图像描述生成优化目标和KL散度所构成的损失函数进行优化，得到生成最优图像描述的神经网络。

技术关键词

视觉特征语义特征残差归一化变量语法结构注意力图像文本残差神经网络图片句法信息网格代表编码器参数融合特征数据序列模块