一种基于模糊匹配的自然语言处理分词方法及系统

申请号：CN202510879716

申请日期：2025-06-27

公开号：CN120764527A

公开日期：2025-10-10

类型：发明专利

摘要

本发明提出了一种基于模糊匹配的自然语言处理分词方法及系统，包括以下步骤：先对文本按单个字符进行拆分，生成单字符列表，同时加载词表文件；对单字符列表中每一个字符位置，该字符位置的字符每次增加一个字符，递增式与后续字符拼接，生成候选字段；将候选字段与词表目标词语进行模糊匹配，计算匹配得分，返回得分最高的候选字段作为单字符位置的模糊匹配结果；对所述模糊匹配结果进行邻近比较，如果得分大于预设阈值，输出分词结果，否则输出匹配得分最高的字段作为分词结果；与目前现有的基于词表分词算法相比，本发明的基于模糊匹配的分词算法，降低了对词表的质量要求，提高了对新词的识别能力和效率。

技术关键词

分词方法字符自然语言字段分词系统分词算法词语处理器执行指令列表文本新词位置映射拼接模块匹配模块输出模块存储器电子设备