摘要
本发明涉及一种降低PDF文件错别字检测误报率的方法及系统,包括采集待检测PDF文件提取第一待检测文本,对第一待检测文本进行错别字检测,获取第一待检测文本的错别字检测结果构成第一文本错别字集合;格式化第一待检测文本获取第二待检测文本;对第二待检测文本进行错别字检测获取第二待检测文本的错别字检测结果;基于第二待检测文本的错别字检测结果获取第二待检测文本中错别字在第一待检测文本中对应的位置信息并构成第二文本错别字集合;对第一文本错别字集合和第二文本错别字集合取交集,作为最终错别字检测结果。本发明通过将文本格式化后进行二次检测能够有效提高错别字检测的准确率,降低错别字的误报率,进而有效提升PDF文件文本校正效率。