一种文档理解方法及相关产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种文档理解方法及相关产品
申请号:CN202510796218
申请日期:2025-06-13
公开号:CN120705347A
公开日期:2025-09-26
类型:发明专利
摘要
本申请公开了一种文档理解方法及相关产品,该方法包括:获取待理解文档对应的图像和待查询问题;对所述待理解文档对应的图像进行处理,得到所述待理解文档对应的图像的多个候选框;将所述多个候选框和所述待理解文档对应的图像进行叠加处理,得到视觉提示图像;采用多模态大语言模型基于所述视觉提示图像,确定所述待查询问题对应的关键框,并基于所述关键框,得到查询结果;所述关键框表征满足预设条件的候选框。本申请将处理文档时“粗到细”的推理过程融入到多模态大语言模型中,使多模态大语言模型能够更精准地响应用户的指代性或结构化问题,提高多模态大语言模型在文档理解领域的准确性。
技术关键词
大语言模型 图像 视觉 多模态 答案 数据 掩码技术 处理器 计算机程序产品 分析工具 计算机设备 可读存储介质 模块 存储器 参数 布局