摘要
本申请涉及一种基于多模态问答的层级检索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。方法包括:接收多模态输入数据,多模态输入数据包括图像数据和相应的待解答问题数据;对预设知识库中的文档数据和多模态输入数据进行编码处理,得到预设知识库中的文档数据的特征向量和多模态输入数据的图像特征向量;根据预设知识库中的文档数据的特征向量,针对图像特征向量在预设知识库中进行至少一次文本检索,得到文本检索结果;将文本检索结果整合为输入序列,将输入序列输入至多模态问答模型中,生成待解答问题数据的相应答案文本。采用本方法能够提升检索效果和知识整合效率,增强多模态问答系统的性能和灵活性。