摘要
本发明公开了一种基于多模态文档的检索增强生成方法,该方法包括如下步骤:S1、数据构造;S2、多模态知识检索器的特征抽取;S3、多模态知识检索器的特征映射;S4、多模态知识检索器的相关度计算;S5、多模态答案生成:大语言模型根据多模态输入产生文本回复。本发明使用图片和文本组合的多模态文档作为知识载体,设计了一种多模态检索增强生成的方案。相比现有的端到端模型方案,本方案基于检索增强生成框架,保证了答案的准确性和可解释性;相比于使用文本文档作为知识载体的检索增强生成方案,本方案为文档增加了视觉信息以构建多模态文档,并且改进了知识检索器和答案生成器以利用多模态文档,进而提高了知识密集型视觉问答任务的准确性。