基于多模态RAG的图文问答方法、系统、设备及存储介质

申请号：CN202510697916

申请日期：2025-05-28

公开号：CN120611020A

公开日期：2025-09-09

类型：发明专利

摘要

本发明属于人工智能技术领域，涉及一种基于多模态RAG的图文问答方法、系统、设备及存储介质，所述方法包括：1)从PDF文档中提取多模态信息，并将它们表示为稠密向量，存储在文本向量数据库和图像向量数据库中；2)得到问题文本的语义嵌入向量和问题文本的多模态嵌入向量；得到问题图像的描述文本的语义嵌入向量和问题图像的多模态嵌入向量；3)使用语义嵌入向量和多模态嵌入向量在文本向量数据库和图像向量数据库中进行粗筛，找到粗筛文本数据和粗筛图像数据，对它们进行多模态精排并获取检索召回的文本数据和图像数据；4)由多模态大语言模型生成最终答案。其能够有效解析长文档中的多模态数据，准确检索与问题最相关的信息。

技术关键词

文本问答方法大语言模型语义向量图文表格多模态信息图像块格式化生成对用户主题数据存储答案图片转人工智能技术

系统为您推荐了相关专利信息

基于大语言模型的合规性指标体系构建方法及装置

场景分类大语言模型指标体系构建方法客户端处理器

用于图文数据处理的模型持续学习测试方法、介质及设备

协方差矩阵图文测试方法指标计算机程序代码

一种面向心理筛查的个性化问卷生成与智能诊断系统

智能诊断系统风险点神经网络结构数据答案

一种基于联邦学习的文本纠错方法和系统

文本纠错方法参数文本纠错系统纠错文本同态加密算法

一种基于大语言模型的教案动画生成方法

大语言模型动画生成方法答案模板编码向量