一种基于大模型的可视化网页数据爬取方法及系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于大模型的可视化网页数据爬取方法及系统
申请号:
CN202510744643
申请日期:
2025-06-05
公开号:
CN120632181A
公开日期:
2025-09-12
类型:
发明专利
摘要
本发明涉及网络信息提取技术领域,具体为一种基于大模型的可视化网页数据爬取方法及系统,包括以下步骤:自动化浏览与截图,图像预处理,OCR识别,多模态大模型分析,结果融合,大语言模型解析,数据存储与输出;有益效果为:通过截图与多模态分析,可应对各种图片化或动态化网页,无需依赖DOM结构;OCR与多模态大模型互补,显著提高不同字体、复杂排版及图表中数据的提取准确度;模拟真实浏览行为并结合人工验证,可有效规避常见反爬策略;大语言模型按Prompt智能重组页面信息,保证输出数据的完整性与逻辑性。
技术关键词
数据爬取方法
可视化网页
分布式任务调度框架
分布式爬虫框架
加权融合算法
系统容错
文档型数据库
网络信息提取技术
置信度阈值
分布式文件系统
大语言模型
数据存储
实时数据
关系型数据库
图像增强
告警机制
人机协同
生成页面
表格