一种特定领域的中文文本纠错方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种特定领域的中文文本纠错方法及系统
申请号:CN202511263630
申请日期:2025-09-05
公开号:CN120745608A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开一种特定领域的中文文本纠错方法及系统,本发明的方法包括以下步骤:准备批量文本数据,利用文本数据训练Ngram统计语言模型、bert文本分类模型、bert文本语言模型;将待纠错文本进行文本预检测,得到错误文本以及正确文本;对获取到的错误文本进行错误检测,得到错误文本以及错误位置信息;对错误检测检测出的错误文本进行正确文本候选集替换,得到一系列候选集,根据候选集获取最后的文本纠错结果。本发明对于正式场合的书面表达术语,特定用词能够按照人工维护的方式进行准确纠错,同时对于常见错别字深度学习语言模型拥有着良好的纠错能力。
技术关键词
中文文本纠错 统计语言模型 错误检测 纠错文本 文本分类模型 深度学习语言模型 数据 平滑技术 批量 分词 语句 模块 术语 参数