一种高精度中文命名实体抽取模型的构建方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种高精度中文命名实体抽取模型的构建方法
申请号:CN202510750054
申请日期:2025-06-06
公开号:CN120781838A
公开日期:2025-10-14
类型:发明专利
摘要
本发明涉及一种高精度中文命名实体抽取模型的构建方法,包括以下步骤:通过基于Transformer的双向编码Bert预训练语言模型,将句子中的每个字转化为低维的字向量序列;将得到的字向量序列输入到提取词特征信息的Lattice结构层,并对BiLSTM输出的文本标签进行信息序列标注和分割,输入到进行全局归一化处理的CRF层。使用逐位相加的方式对除尾部字符的内部进行融合,再与尾部字符进行向量拼接,用线性映射转化为字向量序列同样的维度。最后将获取的多个关系以三元组的格式存储在Neo4j图数据库中。本发明可以提高字向量语义表示的准确性,有利于充分利用字词特征信息,提高中文命名实体识别的准确性。
技术关键词
中文命名实体 序列 BiLSTM模型 全局最优化 训练语言模型 标签 字符 词特征 双向长短期记忆网络 sigmoid函数 三元组 关系抽取模型 维特比算法 条件随机场 文本 索引 词典 状态更新
系统为您推荐了相关专利信息
联合识别方法 环境感知数据 车辆行驶状态 交互特征 序列特征
模型训练方法 推荐方法 样本 预训练语言模型 数据
优化设计方法 分块 集成设计方法 直方图 生成模型文件
事件关系抽取 UPPAAL模型 训练分类模型 生成自然语言 语句
项目 序列推荐 关系 矩阵 注意力机制