长文档视觉问答方法、装置及电子设备
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
长文档视觉问答方法、装置及电子设备
申请号:
CN202411526272
申请日期:
2024-10-30
公开号:
CN119046442B
公开日期:
2025-03-11
类型:
发明专利
摘要
本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
技术关键词
视觉问答方法
多模态特征
令牌
表格特征
大语言模型
页面单元
图片
样本
答案
文本
非暂态计算机可读存储介质
嵌入位置信息
标识符
交叉注意力机制
列表
计算机视觉技术
文档特征
系统为您推荐了相关专利信息
1
基于人工智能与实体文库的多肽活性筛选方法及系统
活性筛选方法
多肽
文库
实体
训练人工智能模型
2
基于Sidecar容器的多模态数据采集方法及装置
数据采集方法
容器
数据采集策略
数据采集组件
大语言模型
3
智能体创建方法、基于智能体的交互处理方法及相关装置
职业
终端
计算机可执行指令
列表页面
模板
4
一种基于大语言模型的钢材组织性能控制方法和系统
组织性能控制方法
大语言模型
水箱参数
性能控制系统
钢材
5
一种鸟类训练装置及训练方法
鸟类训练方法
训练装置
多模态
扬声器阵列
投喂器