摘要
本发明提供一种视觉问答的回答生成方法、装置及电子设备,所述方法包括:获取待回答问题的问题图像,以及待回答问题的问题文本信息;将所述问题图像和所述问题文本信息输入至预先训练得到的多模态模型,得到所述多模态模型输出的能够回答所述待回答问题的回答图像和\或能够回答所述待回答问题的回答文本信息,其中,所述多模态模型基于所述问题图像和所述问题文本信息能够学习到所述问题图像的高维信息,以使所述多模态模型输出的回答图像与所述待回答问题的匹配度,和\或所述多模态模型输出的所述回答文本信息与所述待回答问题的匹配度超过匹配度阈值。实现了能够提高视觉问答的回答准确性。