一种招投标文件信息抽取方法

申请号：CN202511535730

申请日期：2025-10-27

公开号：CN121031593A

公开日期：2025-11-28

类型：发明专利

摘要

本申请涉及文本处理领域，尤其涉及一种招投标文件信息抽取方法。包括：将招投标文件分割为页面，对页面识别得到对应的文本；对页面中的图像和表格生成补充性文本描述并追加到页面对应的文本的末尾，形成增强型文本块序列；根据预构建的层级化标签体系从文本块序列中匹配出标签，并根据标签和预构建的提示词模板库生成对应的提示词模板；将提示词模板、增强型文本块序列，以及上下文文本摘要作为组合输入大语言模型，得到带有层级关系的结构化抽取结果；将抽取出的实体内容与本地词典匹配，匹配通过后对结果进行聚合整理，输出结构化数据文件。在无需对模型进行重训练的前提下，降低生成内容的幻觉风险。

技术关键词

标签体系大语言模型信息抽取方法页面层级实体文本特征向量图像特征向量模板卷积神经网络提取摘要序列识别置信度 BERT模型表格词典语义向量关系