一种基于多语料聚合和大模型语料扩充的生物医学命名实体识别方法
申请号:CN202411527708
申请日期:2024-10-30
公开号:CN119647472A
公开日期:2025-03-18
类型:发明专利
摘要
本发明公开了一种基于多语料聚合和大模型语料扩充的生物医学命名实体识别方法。该方法主要包括基于BERT‑BiLSTM‑CRF的多语料聚合和基于大型语言模型的语料扩充。基于BERT‑BiLSTM‑CRF的多语料聚合首先收集并筛选多个生物医学语料库的文本数据,通过BIO标注格式进行语料预处理和聚合操作,聚合策略包括直接聚合和标明语料来源的聚合方式。基于大型语言模型的语料扩充通过提示词机制对语料进行聚合,并结合LoRA技术进行模型训练,生成扩充的语料数据。扩充语料经过再处理后重新与原始语料聚合,最终输入到BERT‑BiLSTM‑CRF模型中进行命名实体识别。通过多语料聚合和语料扩充的结合,该方法能够显著提高命名实体识别的效率和准确率,增强模型的泛化能力。
技术关键词
CRF模型
条件随机场
联合损失函数
文本
命名实体识别系统
扩充模块
标签
格式
正则化策略
BERT模型
数据
正则化方法
计算机程序产品
语义特征
机制
风格