一种医疗数据自然语言处理的分词方法及系统

申请号：CN202511222597

申请日期：2025-08-29

公开号：CN120930641A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种医疗数据自然语言处理的分词方法及系统，该方法包括：构建包含基础术语集、组合术语集和缩写映射表的多级医学词典；基于多级医学词典体系，采用正向最大匹配法和逆向最大匹配法对输入文本进行扫描匹配，生成初始候选分词序列；将初始候选分词序列转换为融合字嵌入、词典标记嵌入和位置嵌入的输入特征向量，并将输入特征向量输入至改造后的BERT模型进行处理；对BERT模型输出的标签序列进行解码，以确定最终分词结果。通过结合双向最大匹配法生成初始候选分词序列，将其转换为融合多嵌入的特征向量，输入含术语增强层和条件随机场层的改造后BERT模型处理，经解码优化得最终分词结果，提升医疗文本分词精度与效率。

技术关键词

术语分词方法词典 BERT模型自然语言条件随机场序列语义向量医学文本基础解码标签注意力机制字符维特比算法数据标记分词系统