一种自适应数据采集方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种自适应数据采集方法及装置
申请号:CN202510450850
申请日期:2025-04-11
公开号:CN120386907B
公开日期:2025-12-02
类型:发明专利
摘要
本发明公开了一种自适应数据采集方法及装置,该方法包括获取待处理网页源码信息、历史网页源码集合和爬虫信息集合;所述历史网页源码集合包括若干个历史网页源码信息;所述爬虫信息集合包括若干个爬虫程序信息;对所述历史网页源码集合和所述爬虫信息集合进行融合处理,得到爬虫策略生成模型信息;利用所述爬虫策略生成模型信息,对所述待处理网页源码信息进行处理,得到网页采集信息。可见,本实施例能够根据实际情况自适应调整采集策略,能够高效、精准的进行数据采集,从而有利于降低技术人员的日常维护成本,提高数据采集的效率和质量。
技术关键词
数据采集方法 爬虫程序 网页训练 策略 深度特征信息 样本 密度 可执行程序代码 数据采集装置 可读存储介质 计算机 处理器 存储器 编码 算法 模块 频率 指令