摘要
本申请涉及一种基于视觉语言模型的图像解释方法和装置。所述方法包括:根据样本图像的视觉标注和目标知识图谱确定样本推理指令;通过问答引擎,基于样本图像和样本推理指令生成样本图像的图像解释信息;基于样本图像、样本推理指令和样本图像的图像解释信息训练待训练视觉语言模型,确定目标视觉语言模型;通过目标视觉语言模型,根据目标图像和目标推理指令确定目标图像的图像解释信息。上述方案,统一模型训练数据集的数据格式,提高了数据集构建效率,节约了人力成本,同时能够使得训练出的视觉语言模型能够进行深层次的知识推理。