基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质
申请号:CN202510757602
申请日期:2025-06-09
公开号:CN120296275B
公开日期:2025-08-22
类型:发明专利
摘要
基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质,涉及HTML信息抽取技术领域。信息提取方法包含:获取文档并输入大语言模型。大语言模型判断是否包含表格。若包含表格,则调用表格处理LoRA适配器提取表格内容并转换为伪自然语言描述,以及调用文本处理逻辑模块提取表格的相邻文本上下文,然后进行语义整合,获取第一文本信息。若不包含表格,则调用表格处理LoRA适配器的文本处理模块提取文本内容,获取第一文本信息。调用关键信息提取LoRA适配器,从第一文本信息中提取结构化键值对,以生成JSON数据。调用嵌套结构化生成模块将JSON数据转化为多层嵌套JSON格式的目标序列。
技术关键词
信息提取方法 适配器 文本 大语言模型 逻辑模块 级联 格式 策略 矩阵 段落结构 序列 信息抽取设备 生成表格数据 自然语言 语义 元素 键值 嵌套