摘要
本发明公开了一种医疗数据自然语言处理的分词方法及系统,该方法包括:构建包含基础术语集、组合术语集和缩写映射表的多级医学词典;基于多级医学词典体系,采用正向最大匹配法和逆向最大匹配法对输入文本进行扫描匹配,生成初始候选分词序列;将初始候选分词序列转换为融合字嵌入、词典标记嵌入和位置嵌入的输入特征向量,并将输入特征向量输入至改造后的BERT模型进行处理;对BERT模型输出的标签序列进行解码,以确定最终分词结果。通过结合双向最大匹配法生成初始候选分词序列,将其转换为融合多嵌入的特征向量,输入含术语增强层和条件随机场层的改造后BERT模型处理,经解码优化得最终分词结果,提升医疗文本分词精度与效率。