摘要
本公开实施例公开了一种内容生成方法、装置、电子设备及存储介质,通过获取查询图像和查询文本,对查询文本进行编码得到第一文本特征,在对查询文本进行编码的过程中,对前馈网络的输出特征进行多种粒度的池化得到多种池化特征,将多种池化特征融合得到融合池化特征,基于融合池化特征与输出特征之和得到第一文本特征,对查询图像进行编码得到视觉特征,将视觉特征与第一文本特征进行融合得到查询特征,根据查询特征检索出参考文本,调用视觉大语言模型基于参考文本、查询图像以及查询文本进行内容生成,得到目标内容,能够提升内容生成的准确性。