摘要
本发明涉及一种高精度中文命名实体抽取模型的构建方法,包括以下步骤:通过基于Transformer的双向编码Bert预训练语言模型,将句子中的每个字转化为低维的字向量序列;将得到的字向量序列输入到提取词特征信息的Lattice结构层,并对BiLSTM输出的文本标签进行信息序列标注和分割,输入到进行全局归一化处理的CRF层。使用逐位相加的方式对除尾部字符的内部进行融合,再与尾部字符进行向量拼接,用线性映射转化为字向量序列同样的维度。最后将获取的多个关系以三元组的格式存储在Neo4j图数据库中。本发明可以提高字向量语义表示的准确性,有利于充分利用字词特征信息,提高中文命名实体识别的准确性。