一种基于大模型的可视化网页数据爬取方法及系统

申请号：CN202510744643

申请日期：2025-06-05

公开号：CN120632181A

公开日期：2025-09-12

类型：发明专利

摘要

本发明涉及网络信息提取技术领域，具体为一种基于大模型的可视化网页数据爬取方法及系统，包括以下步骤：自动化浏览与截图，图像预处理，OCR识别，多模态大模型分析，结果融合，大语言模型解析，数据存储与输出；有益效果为：通过截图与多模态分析，可应对各种图片化或动态化网页，无需依赖DOM结构；OCR与多模态大模型互补，显著提高不同字体、复杂排版及图表中数据的提取准确度；模拟真实浏览行为并结合人工验证，可有效规避常见反爬策略；大语言模型按Prompt智能重组页面信息，保证输出数据的完整性与逻辑性。

技术关键词

数据爬取方法可视化网页分布式任务调度框架分布式爬虫框架加权融合算法系统容错文档型数据库网络信息提取技术置信度阈值分布式文件系统大语言模型数据存储实时数据关系型数据库图像增强告警机制人机协同生成页面表格