一种特定领域的中文文本纠错方法及系统

申请号：CN202511263630

申请日期：2025-09-05

公开号：CN120745608A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开一种特定领域的中文文本纠错方法及系统，本发明的方法包括以下步骤：准备批量文本数据，利用文本数据训练Ngram统计语言模型、bert文本分类模型、bert文本语言模型；将待纠错文本进行文本预检测，得到错误文本以及正确文本；对获取到的错误文本进行错误检测，得到错误文本以及错误位置信息；对错误检测检测出的错误文本进行正确文本候选集替换，得到一系列候选集，根据候选集获取最后的文本纠错结果。本发明对于正式场合的书面表达术语，特定用词能够按照人工维护的方式进行准确纠错，同时对于常见错别字深度学习语言模型拥有着良好的纠错能力。

技术关键词

中文文本纠错统计语言模型错误检测纠错文本文本分类模型深度学习语言模型数据平滑技术批量分词语句模块术语参数