摘要
本申请提供一种循环自动化数据采集方法及系统,方法包括:形成入口URL集合;依据入口URL集合,基于DOM结构特征分析与语义关联度评估,以及TF‑I DF和Word2Vec的链接价值评分,形成高价值链接队列;依据高价值链接队列,获取页面内容,形成包含有效电话号码的页面队列;依据页面队列,运用自我注意的扩散模型进行时间序列插补,形成商户数据集;根据所述商户数据集,利用字段提取神经网络模型和电话号码分组识别模型进行字段信息提取和电话号码分组识别,生成结构化数据集;依据结构化数据集,执行多维数据指纹生成进行数据去重。本申请解决了传统自动化数据采集技术在复杂网页结构识别、数据时效性维护和数据质量保证方面的技术问题。