一种网页列表页链接识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种网页列表页链接识别方法
申请号:CN202410779240
申请日期:2024-06-17
公开号:CN118797193A
公开日期:2024-10-18
类型:发明专利
摘要
本发明提供一种网页列表页链接识别方法,包括获取网页列表的html文档,通过xpath将html文档转换成Dom树;所述Dom树包括若干主体,从Dom树的根为起始遍历主体以筛选主体中包含预设标签的链接url,提取并构成链接组;两两组合链接组内链接url,依据链接url内包含字符串种类和数量将其转换成向量数组,使用余弦相似度定理计算两数组的相似度,依据相似度是否超过阈值判断两链接url是否相似,相似度高的链接url保留至链接组;依据关键词过滤链接url,输出符合规则的链接。本发明通过余弦相似度算法对链接识别进行优化,能够对不同网页列表页链接的高效、准确识别,提高了识别的准确率和适应性。
技术关键词
链接识别方法 列表 标签 关键词 生成方法 文本 格式 标识符 符号 算法