摘要
本发明提供一种网页列表页链接识别方法,包括获取网页列表的html文档,通过xpath将html文档转换成Dom树;所述Dom树包括若干主体,从Dom树的根为起始遍历主体以筛选主体中包含预设标签的链接url,提取并构成链接组;两两组合链接组内链接url,依据链接url内包含字符串种类和数量将其转换成向量数组,使用余弦相似度定理计算两数组的相似度,依据相似度是否超过阈值判断两链接url是否相似,相似度高的链接url保留至链接组;依据关键词过滤链接url,输出符合规则的链接。本发明通过余弦相似度算法对链接识别进行优化,能够对不同网页列表页链接的高效、准确识别,提高了识别的准确率和适应性。