一种基于多模态基元的文档问答方法、系统、终端及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态基元的文档问答方法、系统、终端及介质
申请号:CN202411674419
申请日期:2024-11-21
公开号:CN119917686A
公开日期:2025-05-02
类型:发明专利
摘要
本发明属于大模型领域,具体涉及一种基于多模态基元的文档问答方法、系统、终端及介质,对用户上传的若干文档提取各个文档的标题基元、段落基元、图像基元和表格基元;构建段落基元与图像基元、表格基元的相关性映射表;将文本模态的基元转换为文本向量进行存储;将用户问题转化为查询向量;根据查询向量筛选出目标标题基元和目标段落基元,并获取相关的目标图像基元、目标表格基元;将目标标题基元、目标段落基元、目标图像基元、目标表格基元与用户问题构造成提示词,将提示词输入多模态大语言模型中进行处理,输出问题结果。本发明基于多模态信息进行问题回答,提高模型所输出问题结果的准确性和可解释性。
技术关键词
基元 问答方法 表格 文本 图像 大语言模型 位置映射 字符 多模态信息 存储单元 可读存储介质 问答系统 程序 终端 输出模块 存储模块 关系 处理器