摘要
本发明属于信息相似度判断技术领域,具体涉及一种基于混合文本相似度的人员信息一致性计算方法,所述方法通过计算文本间相似度,判断文本是否一致,用于统计文本出现频次和搜索匹配过程,使统计过程和匹配过程更加全面,避免遗漏一些因个别字符不一致语义完全相同的文本。基于一致性计算结果,在检索过程中对检索词进行扩展,使得检索结果更加全面。所述方法利用相似度的传递性,当已知文本a和文本c的相似度,文本a与文本b完全一致,那么不需要计算文本b与文本c的相似度,直接取文本a和文本c的相似度,减少计算量。所述方法基于字符串计算相似度时,根据字符串长度差异和相同字符占比对需要计算的文本对进行删选,减少计算量。