摘要
本申请提供一种面向水利大模型检索增强的文档表格结构识别方法,涉及水利文档表格处理分析领域,解决了大模型检索增强技术中,若采用现有文档识别技术难以准确提取水利文档内含的大量复杂、跨页的非结构化表格信息的技术问题。该方法包括:获取水利信息的文档X,拆分为若干单页面,将每个页面划分为若干列区域和若干行区域;提取每个行区域的视觉信息向量和文本信息向量,并生成联合特征向量;通过UNet获取行区域之间的交叉行特征矩阵;基于交叉行特征矩阵,获取每个行区域的标签,并合并行区域。本申请用于水利文档表格处理过程中。