基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质
申请号:CN202510757602
申请日期:2025-06-09
公开号:CN120296275B
公开日期:2025-08-22
类型:发明专利
摘要
基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质,涉及HTML信息抽取技术领域。信息提取方法包含:获取文档并输入大语言模型。大语言模型判断是否包含表格。若包含表格,则调用表格处理LoRA适配器提取表格内容并转换为伪自然语言描述,以及调用文本处理逻辑模块提取表格的相邻文本上下文,然后进行语义整合,获取第一文本信息。若不包含表格,则调用表格处理LoRA适配器的文本处理模块提取文本内容,获取第一文本信息。调用关键信息提取LoRA适配器,从第一文本信息中提取结构化键值对,以生成JSON数据。调用嵌套结构化生成模块将JSON数据转化为多层嵌套JSON格式的目标序列。
技术关键词
信息提取方法
适配器
文本
大语言模型
逻辑模块
级联
格式
策略
矩阵
段落结构
序列
信息抽取设备
生成表格数据
自然语言
语义
元素
键值
嵌套