循环自动化数据采集方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
循环自动化数据采集方法及系统
申请号:CN202510434655
申请日期:2025-04-08
公开号:CN120407898A
公开日期:2025-08-01
类型:发明专利
摘要
本申请提供一种循环自动化数据采集方法及系统,方法包括:形成入口URL集合;依据入口URL集合,基于DOM结构特征分析与语义关联度评估,以及TF‑I DF和Word2Vec的链接价值评分,形成高价值链接队列;依据高价值链接队列,获取页面内容,形成包含有效电话号码的页面队列;依据页面队列,运用自我注意的扩散模型进行时间序列插补,形成商户数据集;根据所述商户数据集,利用字段提取神经网络模型和电话号码分组识别模型进行字段信息提取和电话号码分组识别,生成结构化数据集;依据结构化数据集,执行多维数据指纹生成进行数据去重。本申请解决了传统自动化数据采集技术在复杂网页结构识别、数据时效性维护和数据质量保证方面的技术问题。
技术关键词
动态优先级队列 神经网络模型 生成结构化数据 结构特征分析 语义关联度 电话号码列表 页面内容 序列 自动化数据采集技术 自动化数据采集系统 Word2Vec模型 入口 字段 时效性 文本聚类算法 DOM树结构