一种基于多模态基元的文档问答方法、系统、终端及介质
申请号:CN202411674419
申请日期:2024-11-21
公开号:CN119917686A
公开日期:2025-05-02
类型:发明专利
摘要
本发明属于大模型领域,具体涉及一种基于多模态基元的文档问答方法、系统、终端及介质,对用户上传的若干文档提取各个文档的标题基元、段落基元、图像基元和表格基元;构建段落基元与图像基元、表格基元的相关性映射表;将文本模态的基元转换为文本向量进行存储;将用户问题转化为查询向量;根据查询向量筛选出目标标题基元和目标段落基元,并获取相关的目标图像基元、目标表格基元;将目标标题基元、目标段落基元、目标图像基元、目标表格基元与用户问题构造成提示词,将提示词输入多模态大语言模型中进行处理,输出问题结果。本发明基于多模态信息进行问题回答,提高模型所输出问题结果的准确性和可解释性。
技术关键词
基元
问答方法
表格
文本
图像
大语言模型
位置映射
字符
多模态信息
存储单元
可读存储介质
问答系统
程序
终端
输出模块
存储模块
关系
处理器