一种基于大模型的可视化网页数据爬取方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大模型的可视化网页数据爬取方法及系统
申请号:CN202510744643
申请日期:2025-06-05
公开号:CN120632181A
公开日期:2025-09-12
类型:发明专利
摘要
本发明涉及网络信息提取技术领域,具体为一种基于大模型的可视化网页数据爬取方法及系统,包括以下步骤:自动化浏览与截图,图像预处理,OCR识别,多模态大模型分析,结果融合,大语言模型解析,数据存储与输出;有益效果为:通过截图与多模态分析,可应对各种图片化或动态化网页,无需依赖DOM结构;OCR与多模态大模型互补,显著提高不同字体、复杂排版及图表中数据的提取准确度;模拟真实浏览行为并结合人工验证,可有效规避常见反爬策略;大语言模型按Prompt智能重组页面信息,保证输出数据的完整性与逻辑性。
技术关键词
数据爬取方法 可视化网页 分布式任务调度框架 分布式爬虫框架 加权融合算法 系统容错 文档型数据库 网络信息提取技术 置信度阈值 分布式文件系统 大语言模型 数据存储 实时数据 关系型数据库 图像增强 告警机制 人机协同 生成页面 表格