摘要
本发明公开了一种内容生成方法、装置、设备、存储介质及产品,该方法包括:将目标图像和目标提示文本输入到训练完成的多模态语言模型中;通过多模态语言模型中的至少两个视觉编码器,对目标图像分别进行视觉编码得到至少两个视觉编码特征,并通过多模态语言模型中的特征融合模块,对至少两个视觉编码特征进行特征融合得到视觉融合特征;通过多模态语言模型中的文本特征网络,对目标提示文本进行文本编码得到文本编码特征;将视觉融合特征和文本编码特征输入到多模态语言模型中的内容输出网络中,得到输出的与多模态数据对应的响应文本内容,提高了多模态语言模型对视觉信息的表达能力,从而提高了多模态语言模型的准确度。