摘要
本发明涉及数据分析技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种基于分层检索的问题答案生成方法、装置、设备及介质,所述方法包括:根据若干文档、文档标题和文档关联图像构建多模态知识库,对获取的待分析图像和目标用户问题进行编码,得到图像特征向量和问题特征向量,确定图像特征向量与文档标题的第一相似度,并从多模态知识库内筛选出目标相关文档,确定问题特征向量与目标相关文档的文档段落的第二相似度,并从目标相关文档内筛选出候选段落集合,利用候选段落集合对图像特征向量和问题特征向量进行自回归答案分析,得到目标问题答案。本发明提高了多模态大语言模型在处理需要外部知识的视觉问答任务时的准确性。