基于多模态RAG的图文问答方法、系统、设备及存储介质
申请号:CN202510697916
申请日期:2025-05-28
公开号:CN120611020A
公开日期:2025-09-09
类型:发明专利
摘要
本发明属于人工智能技术领域,涉及一种基于多模态RAG的图文问答方法、系统、设备及存储介质,所述方法包括:1)从PDF文档中提取多模态信息,并将它们表示为稠密向量,存储在文本向量数据库和图像向量数据库中;2)得到问题文本的语义嵌入向量和问题文本的多模态嵌入向量;得到问题图像的描述文本的语义嵌入向量和问题图像的多模态嵌入向量;3)使用语义嵌入向量和多模态嵌入向量在文本向量数据库和图像向量数据库中进行粗筛,找到粗筛文本数据和粗筛图像数据,对它们进行多模态精排并获取检索召回的文本数据和图像数据;4)由多模态大语言模型生成最终答案。其能够有效解析长文档中的多模态数据,准确检索与问题最相关的信息。
技术关键词
文本
问答方法
大语言模型
语义向量
图文
表格
多模态信息
图像块
格式化
生成对用户
主题
数据存储
答案
图片转
人工智能技术