一种面向水利大模型检索增强的文档表格结构识别方法

申请号：CN202511128539

申请日期：2025-08-13

公开号：CN120633613B

公开日期：2025-10-28

类型：发明专利

摘要

本申请提供一种面向水利大模型检索增强的文档表格结构识别方法，涉及水利文档表格处理分析领域，解决了大模型检索增强技术中，若采用现有文档识别技术难以准确提取水利文档内含的大量复杂、跨页的非结构化表格信息的技术问题。该方法包括：获取水利信息的文档X，拆分为若干单页面，将每个页面划分为若干列区域和若干行区域；提取每个行区域的视觉信息向量和文本信息向量，并生成联合特征向量；通过UNet获取行区域之间的交叉行特征矩阵；基于交叉行特征矩阵，获取每个行区域的标签，并合并行区域。本申请用于水利文档表格处理过程中。

技术关键词

结构识别方法表格水利全卷积神经网络文档识别技术页面 Softmax函数矩阵标签层级文本网格字符对象编码器物理视觉特征数据上采样