一种煤矿机电设备领域稀疏样本的三元组抽取方法及装置
申请号:CN202510238055
申请日期:2025-02-28
公开号:CN120508662A
公开日期:2025-08-19
类型:发明专利
摘要
本申请提供一种煤矿机电设备领域稀疏样本的三元组抽取方法及装置,该方法包括:使用BERT模型作为训练模型进行文本向量化;在Span的抽取过程中使用Bi‑LSTM来融合Span上下文语义关系;通过关系分类器对候选的Span实体对进行关系分类;其中,在Span的抽取过程中使用滑动窗口机制,将每个实体表示为一个连续的子序列。本方法中,Span方法使用了滑动窗口机制,它将每个实体表示为一个连续的子序列,而不是单独的标记,可以有效的解决三元组重叠问题,在实体抽取和关系预测阶段使用Bi‑LSTM来融合Span的上下文语义,提升了对重叠三元组的识别效果,本方法对于领域内的关系类别增强与普通的同义词替换和回译法相比较也有更好的效果。
技术关键词
煤矿机电设备
滑动窗口机制
关系分类器
实体
BERT模型
三元组
文本
上下文语义信息
前馈神经网络
序列
抽取装置
样本
编码
注意力机制
处理器
同义词