摘要
本发明公开了一种基于语义边界建模的重复隐患自动识别方法,属于文本分类技术领域。传统的重复隐患分类方法大多基于粗粒度,仅进行大类划分,难以识别具体情境下的重复问题。此外,传统模型会将新出现的隐患样本自动归到已有类别,且需要大量训练数据,才能取得比较好的效果。本发明通过对历史隐患数据中重复出现的具体隐患进行细粒度抽象与归类,构建重复隐患标准库,将其中每一条标准隐患作为一个独立类别。然后对历史隐患数据进行数据标注,并基于标准库中类别,采用原型网络在少样本条件下进行模型训练,为每类重复隐患构建对应的语义原型表示及其分布边界。模型可用于识别新上报隐患是否匹配某一标准隐患,有助于提高企业隐患治理的针对性。