一种基于预训练大模型的网络数据自适应采集方法和系统

申请号：CN202411710839

申请日期：2024-11-27

公开号：CN119884527A

公开日期：2025-04-25

类型：发明专利

摘要

本发明提出了一种基于预训练大模型的网络数据自适应采集方法和系统，通过将网页数据中的HTML标签和自定义属性添加到分词器Token izer的词汇表中，对预训练大模型的嵌入层进行初始化，并利用预处理的模型训练样本和词汇表对预训练大模型进行增量训练和有监督微调训练生成网络结构识别大模型，对输入的网页数据进行解析得到网页结构化数据，按照预先设置的时间间隔定期获取目标网页的截图，将网页结构化数据和网页截图分别进行差异对比，通过差异检测算法生成差异列表，计算综合置信度评分；根据差异列表生成具体的爬虫调整策略，对现有的爬虫规则进行更新。本发明具有更强的泛化和自适应能力，能自动适应频繁变化的网页结构，并提高数据采集的效率和准确性。

技术关键词

网页结构化数据预训练模型爬虫列表网页元素计算机视觉技术网络结构深度优先搜索算法图像生成结构网页模型构造网页自动化工具静态网页动态网页策略更新