一种基于模糊匹配的自然语言处理分词方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于模糊匹配的自然语言处理分词方法及系统
申请号:CN202510879716
申请日期:2025-06-27
公开号:CN120764527A
公开日期:2025-10-10
类型:发明专利
摘要
本发明提出了一种基于模糊匹配的自然语言处理分词方法及系统,包括以下步骤:先对文本按单个字符进行拆分,生成单字符列表,同时加载词表文件;对单字符列表中每一个字符位置,该字符位置的字符每次增加一个字符,递增式与后续字符拼接,生成候选字段;将候选字段与词表目标词语进行模糊匹配,计算匹配得分,返回得分最高的候选字段作为单字符位置的模糊匹配结果;对所述模糊匹配结果进行邻近比较,如果得分大于预设阈值,输出分词结果,否则输出匹配得分最高的字段作为分词结果;与目前现有的基于词表分词算法相比,本发明的基于模糊匹配的分词算法,降低了对词表的质量要求,提高了对新词的识别能力和效率。
技术关键词
分词方法 字符 自然语言 字段 分词系统 分词算法 词语 处理器执行指令 列表 文本 新词 位置映射 拼接模块 匹配模块 输出模块 存储器 电子设备