摘要
本申请涉及计算机技术领域,尤其涉及一种网页检测方法、装置及电子设备。该方法包括:从目标网页中提取表示网页内容的页面数据信息。采用关键词典遍历页面数据信息,确定页面数据信息是否包含关键词典中的关键词,并进行标记得到标记序列。计算目标网页中每个表单Form标签内的字符长度与网页内容字符长度的比值得到内容比例,计算包含交互动作关键词的子元素数量与对应的Form标签内总元素数量的比值得到元素命中比例。输入标准化处理后的特征数据输入至决策树模型中,确定目标网页是否为登录页面,特征数据包括标记序列、内容比例以及元素命中比例。上述方案,可以实现提升网页检测准确性,提高网页检测的处理效率。