基于语法结构嵌入学习的多样可控图像描述方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语法结构嵌入学习的多样可控图像描述方法
申请号:CN202410882080
申请日期:2024-07-03
公开号:CN118862959B
公开日期:2025-08-26
类型:发明专利
摘要
本发明提供了一种基于语法结构嵌入学习的多样可控图像描述方法,包括以下步骤:步骤S100,获取图像的视觉特征和文本的语义特征;步骤S200,对视觉特征和文本语义特征分别进行先验近似子网络和后验近似子网络的学习获得先验潜在变量和后验潜在变量,获取先验潜在变量和后验潜在变量之间的KL散度;步骤S300,利用视觉特征、先验潜在变量和后验潜在变量和一系列[MASK]作为输入,采用非自回归目标函数预测词性标注;步骤S400,利用视觉特征先验潜在变量和后验潜在变量和文本生成描述,获取图像描述生成优化目标;步骤S500,对非自回归目标、图像描述生成优化目标和KL散度所构成的损失函数进行优化,得到生成最优图像描述的神经网络。
技术关键词
视觉特征 语义特征 残差归一化 变量 语法结构 注意力 图像 文本 残差神经网络 图片 句法信息 网格 代表 编码器 参数 融合特征 数据 序列 模块