基于大间隔表示学习的跨语言命名实体识别方法、设备、介质
申请号:CN202510759640
申请日期:2025-06-09
公开号:CN120671671A
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开了基于大间隔表示学习的跨语言命名实体识别方法、设备、介质,包括:获取源语言标注文本序列和目标语言无标注文本序列,分别提取第一、第二跨度。使用第一跨度训练源模型,并生成第二跨度对应的伪标签。根据目标语言跨度特征与其所属类别中心的相似度评估伪标签置信度,将其分为高置信度和低置信度两类。结合源语言标注跨度和高置信度的目标语言伪标签跨度,使用联合损失函数训练目标模型。修正低置信度伪标签,使其参与目标模型的后续迭代训练,以利用更多目标语言数据。终训练好的目标模型用于识别目标语言文本中的命名实体。本发明方法的核心是通过大间隔表示学习结合伪标签筛选和动态修正,提升跨语言命名实体识别性能。
技术关键词
命名实体识别方法
跨度
联合损失函数
标签
命名实体识别模型
文本
序列
高斯混合模型
编码器
处理器
计算机程序产品
框架
存储器
可读存储介质
电子设备
数据