一种基于LLM模型的企业信息提取方法

申请号：CN202410859145

申请日期：2024-06-28

公开号：CN118536499A

公开日期：2024-08-23

类型：发明专利

摘要

本发明涉及一种基于LLM模型的企业信息提取方法，获取企业信息的样本数据，进行预处理，对预处理后的样本数据进行转换及编码；利用得到的数据信息进行LoRA微调训练；以训练得到的新参数集替换LLM模型的原始参数集，对测试数据进行计算，获得计算结果；若更新参数及后的LLM模型的准确率达到预设标准，则结束，否则将测试数据作为新增样本数据，与初始样本数据一并重复训练。本发明借助LLM模型在自然语言理解能力的提升，利用本行业内的小样本行业业务数据，对开源LLM模型进行LoRA微调训练，再利用训练后的模型计算处理业务数据，包括分类、打标、命名实体提取等，特别是对企业信息进行准确信息提取。

技术关键词

信息提取方法样本生成对抗网络模型企业数据参数偏差节点门牌号街道自然语言编码纠错网格实体标签元素