基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质

申请号：CN202510757602

申请日期：2025-06-09

公开号：CN120296275B

公开日期：2025-08-22

类型：发明专利

摘要

基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质，涉及HTML信息抽取技术领域。信息提取方法包含：获取文档并输入大语言模型。大语言模型判断是否包含表格。若包含表格，则调用表格处理LoRA适配器提取表格内容并转换为伪自然语言描述，以及调用文本处理逻辑模块提取表格的相邻文本上下文，然后进行语义整合，获取第一文本信息。若不包含表格，则调用表格处理LoRA适配器的文本处理模块提取文本内容，获取第一文本信息。调用关键信息提取LoRA适配器，从第一文本信息中提取结构化键值对，以生成JSON数据。调用嵌套结构化生成模块将JSON数据转化为多层嵌套JSON格式的目标序列。

技术关键词

信息提取方法适配器文本大语言模型逻辑模块级联格式策略矩阵段落结构序列信息抽取设备生成表格数据自然语言语义元素键值嵌套