一种智能网络爬虫方法和系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种智能网络爬虫方法和系统
申请号:CN202510591596
申请日期:2025-05-09
公开号:CN120596724A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提供了一种智能网络爬虫方法和系统,应用于网络信息处理技术领域。通过多种基于大模型的智能体,判断网站的页面类型,将网站分为首页、列表页、详情页及其他页,将网站编制成一个以首页为根、以列表页为路径节点,以详情页和其他页为叶子节点的树状结构的网站地图,网络爬虫每次对网站进行采集时,都会将当前网站的地图,与前次采集的网站地图做对比,只选取增量数据进行采集。采用本发明的智能网络爬虫技术,既降低了目标网站的压力,也提高了采集效率。
技术关键词
网站地图 智能网络 爬虫方法 大语言模型 网络信息处理技术 多模态 静态网站 动态网站 爬虫系统 存储页面 数据 爬虫技术 树状结构 列表 自然语言 工具包 字段