一种图像描述生成系统、训练方法、生成方法及电子设备
申请号:CN202510357550
申请日期:2025-03-25
公开号:CN120219769A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种图像描述生成系统、训练方法、生成方法及电子设备,属于图像描述技术领域;将图像的视觉特征映射到一个视觉与语言可比的空间中,得到语义信息序列后,通过Transformer解码器实现语义信息序列和视觉特征序列的跨模态语义计算,得到各个候选词汇的中间隐藏状态,进而构建对应的有向无环图,从有向无环图中选出最优路径后,由线性分类器直接映射为图像文本描述。本发明充分利用了图像的视觉信息及所包含的语义信息,通过引入有向无环图学习了单词间的顺序关系,提高了生成描述的流畅性,且具有非自回归解码属性,能够以较快的速度生成高质量的图像文本描述。
技术关键词
生成系统
语言编码器
融合图像特征
视觉特征
样本
线性分类器
文本
序列
转移概率矩阵
图像编码器
生成方法
嵌入特征
语义特征
标签
有向无环图
电子设备
可读存储介质