一种基于多模态文档的检索增强生成方法

申请号：CN202411867298

申请日期：2024-12-18

公开号：CN119988542B

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于多模态文档的检索增强生成方法，该方法包括如下步骤：S1、数据构造；S2、多模态知识检索器的特征抽取；S3、多模态知识检索器的特征映射；S4、多模态知识检索器的相关度计算；S5、多模态答案生成：大语言模型根据多模态输入产生文本回复。本发明使用图片和文本组合的多模态文档作为知识载体，设计了一种多模态检索增强生成的方案。相比现有的端到端模型方案，本方案基于检索增强生成框架，保证了答案的准确性和可解释性；相比于使用文本文档作为知识载体的检索增强生成方案，本方案为文档增加了视觉信息以构建多模态文档，并且改进了知识检索器和答案生成器以利用多模态文档，进而提高了知识密集型视觉问答任务的准确性。

技术关键词

图片生成方法答案大语言模型多模态特征文本编码器图像编码器生成框架多层感知机序列实体矩阵视觉策略载体数据线性