摘要
本申请公开了一种多模态检索增强生成方法、设备及介质,属于数据处理的技术领域。方法包括连接多个文档数据库,并基于多个所述文档数据库构建特征向量知识库;获取用户提问;其中,所述用户提问包括输入问题和输入图像;基于预设的图像特征向量编码模型处理所述输入图像和特征向量知识库,以确定相关文档集;基于预设的语义模型处理所述用户输入问题和所述相关文档集,以确定目标文档;基于预设的多模态大模型处理所述用户提问、相关文档集和目标文档,以生成文档答案。本申请通过上述方法提高了视觉问答模态理解、泛化和跨模态融合能力。