摘要
本申请公开了一种内容生成方法、装置、设备、存储介质及程序产品,涉及大语言模型视觉感知技术领域,该方法包括:获取图像数据以及图像数据对应的问题信息;利用目标生成式模型识别问题信息的语义特征,按照语义特征在图像数据中定位问题信息对应的视觉区域;利用目标生成式模型识别视觉区域中的视觉信息,按照视觉信息生成与问题信息相匹配的目标文本内容;其中,目标生成式模型是基于视觉重现和多模态信息训练生成的。通过实施本公开技术方案,能够充分识别图像数据中的视觉特征,提升视觉信息的处理能力,结合语义特征以及视觉信息进行内容生成的推理,实现了多模态数据的有效整合,从而提升了内容生成效果。