基于提示的实体级自回归关系三元组抽取模型训练方法、抽取方法及装置
申请号:CN202510198000
申请日期:2025-02-21
公开号:CN120216981A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提供一种基于提示的实体级自回归关系三元组抽取模型训练方法、抽取方法及装置,针对单实体重叠、实体对重叠和分段实体等复杂场景,采用扩展BIO标签机制构建训练样本集,对句子中的多个实体段按不同实体类型添加标签,区分起始token、内部token和非实体token。利用BERT编码器与分类器构建初始神经网络模型,在单步自回归抽取中,模型输入句子、关系类型及已提取实体对,针对不同关系类型通过多轮自回归逐个预测实体对及其关系。训练时采用标签平滑技术,结合交叉熵损失函数更新参数,优化抽取性能。该方法可高效标注分段实体,基于多轮自回归预测实体,有效解决分段实体复杂情况下的关系三元组提取问题。
技术关键词
实体
三元组
模型训练方法
神经网络模型
关系
训练样本集
标签
编码器
局部注意力机制
标记
分段
分类器
平滑技术
主题
训练集
计算机程序产品
指令
可读存储介质