长文档视觉问答方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
长文档视觉问答方法、装置及电子设备
申请号:CN202411526272
申请日期:2024-10-30
公开号:CN119046442B
公开日期:2025-03-11
类型:发明专利
摘要
本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
技术关键词
视觉问答方法 多模态特征 令牌 表格特征 大语言模型 页面单元 图片 样本 答案 文本 非暂态计算机可读存储介质 嵌入位置信息 标识符 交叉注意力机制 列表 计算机视觉技术 文档特征
系统为您推荐了相关专利信息
活性筛选方法 多肽 文库 实体 训练人工智能模型
数据采集方法 容器 数据采集策略 数据采集组件 大语言模型
职业 终端 计算机可执行指令 列表页面 模板
组织性能控制方法 大语言模型 水箱参数 性能控制系统 钢材
鸟类训练方法 训练装置 多模态 扬声器阵列 投喂器