基于多模态RAG的图文问答方法、系统、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态RAG的图文问答方法、系统、设备及存储介质
申请号:CN202510697916
申请日期:2025-05-28
公开号:CN120611020A
公开日期:2025-09-09
类型:发明专利
摘要
本发明属于人工智能技术领域,涉及一种基于多模态RAG的图文问答方法、系统、设备及存储介质,所述方法包括:1)从PDF文档中提取多模态信息,并将它们表示为稠密向量,存储在文本向量数据库和图像向量数据库中;2)得到问题文本的语义嵌入向量和问题文本的多模态嵌入向量;得到问题图像的描述文本的语义嵌入向量和问题图像的多模态嵌入向量;3)使用语义嵌入向量和多模态嵌入向量在文本向量数据库和图像向量数据库中进行粗筛,找到粗筛文本数据和粗筛图像数据,对它们进行多模态精排并获取检索召回的文本数据和图像数据;4)由多模态大语言模型生成最终答案。其能够有效解析长文档中的多模态数据,准确检索与问题最相关的信息。
技术关键词
文本 问答方法 大语言模型 语义向量 图文 表格 多模态信息 图像块 格式化 生成对用户 主题 数据存储 答案 图片转 人工智能技术
系统为您推荐了相关专利信息
场景分类 大语言模型 指标体系构建方法 客户端 处理器
协方差矩阵 图文 测试方法 指标 计算机程序代码
智能诊断系统 风险点 神经网络结构 数据 答案
文本纠错方法 参数 文本纠错系统 纠错文本 同态加密算法
大语言模型 动画生成方法 答案 模板 编码向量