一种医疗数据自然语言处理的分词方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种医疗数据自然语言处理的分词方法及系统
申请号:CN202511222597
申请日期:2025-08-29
公开号:CN120930641A
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种医疗数据自然语言处理的分词方法及系统,该方法包括:构建包含基础术语集、组合术语集和缩写映射表的多级医学词典;基于多级医学词典体系,采用正向最大匹配法和逆向最大匹配法对输入文本进行扫描匹配,生成初始候选分词序列;将初始候选分词序列转换为融合字嵌入、词典标记嵌入和位置嵌入的输入特征向量,并将输入特征向量输入至改造后的BERT模型进行处理;对BERT模型输出的标签序列进行解码,以确定最终分词结果。通过结合双向最大匹配法生成初始候选分词序列,将其转换为融合多嵌入的特征向量,输入含术语增强层和条件随机场层的改造后BERT模型处理,经解码优化得最终分词结果,提升医疗文本分词精度与效率。
技术关键词
术语 分词方法 词典 BERT模型 自然语言 条件随机场 序列 语义向量 医学 文本 基础 解码 标签 注意力机制 字符 维特比算法 数据 标记 分词系统