摘要
本发明提出了一种基于模糊匹配的自然语言处理分词方法及系统,包括以下步骤:先对文本按单个字符进行拆分,生成单字符列表,同时加载词表文件;对单字符列表中每一个字符位置,该字符位置的字符每次增加一个字符,递增式与后续字符拼接,生成候选字段;将候选字段与词表目标词语进行模糊匹配,计算匹配得分,返回得分最高的候选字段作为单字符位置的模糊匹配结果;对所述模糊匹配结果进行邻近比较,如果得分大于预设阈值,输出分词结果,否则输出匹配得分最高的字段作为分词结果;与目前现有的基于词表分词算法相比,本发明的基于模糊匹配的分词算法,降低了对词表的质量要求,提高了对新词的识别能力和效率。