新闻页面数据通用采集方法、装置、设备、介质及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
新闻页面数据通用采集方法、装置、设备、介质及产品
申请号:CN202510209720
申请日期:2025-02-25
公开号:CN120045767A
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了一种新闻页面数据通用采集方法、装置、设备、介质及产品,涉及新闻页面数据采集技术领域。所述方法是先向目标新闻网站发送HTTP请求以获取新闻网页返回数据,然后在判定存在有动态加载内容时调用浏览器自动化工具Selenium进行在新闻网页所有元素都加载完成后的数据抓取,并将抓取结果作为新闻网页原始数据,再然后针对在DOM树中的各个节点,计算得到对应的文本密度及符号密度,并基于计算结果判断网页内容是否为复杂内容,若是则通过多维度特征分析和基于规则且用于新闻页面解析的大语言模型,定位得到针对新闻页面关键信息的最终提取结果,最后对提取结果进行数据清洗与标准化处理,得到具有统一格式的新闻页面数据并予以输出。
技术关键词
页面关键信息 动态加载内容 HTTP请求 密度 自动化工具 文本 节点 多媒体 符号 通用采集装置 页面数据采集 数据处理单元 大语言模型 历史访问数据 解析单元 格式 元素