一种针对非结构化车型数据的知识联合抽取方法、系统、存储介质和设备
申请号:CN202410883512
申请日期:2024-07-03
公开号:CN118410154B
公开日期:2024-11-05
类型:发明专利
摘要
本发明公开了一种针对非结构化车型数据的知识联合抽取方法、系统、存储介质和设备,属于汽车数据处理领域,通过对非结构化的车型数据进行预处理;确定车型数据中需要抽取的实体类型;利用BERT模型对输入文本进行学习词嵌入,将输入文本信息转化为高维度的向量信息;利用CRF模型对BERT输出的高维向量进行序列标注,将输入文本中的头实体和尾实体标注出来,以捕捉实体之间的依赖关系,并得到最优的实体序列标签;将序列标注得到的实体对替换为对应的实体类型,获得实体关联表示向量M;将实体关联表示向量M输入GRU神经网络进行关系分类。本方法对实体的识别准确率达到95%,关系识别准确率达到85%。
技术关键词
联合抽取方法
BERT模型
实体
车型
CRF模型
GRU神经网络
序列
sigmoid函数
文本
GRU模型
数据
矩阵
标签
关系
语句
字符
可读存储介质
抽取系统
标记方式
分段