一种基于大语言模型的数据采集方法、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的数据采集方法、设备及介质
申请号:CN202511115254
申请日期:2025-08-11
公开号:CN120632184A
公开日期:2025-09-12
类型:发明专利
摘要
本申请涉及电数字数据处理技术领域,特别是涉及一种基于大语言模型的数据采集方法、设备及介质。该方法包括:将目标语句输入到大语言模型,得到大语言模型输出的目标文本,并根据目标文本获取目标语句的目标关键词集合;从预设的网址库中获取与目标关键词集合匹配的目标网址列表;根据目标网址列表中的每一网址对应的网站的历史更新时刻集合确定每一网址对应的网站的目标爬取时间段和目标爬取时间段对应的爬取时间步长;在指定网站的目标爬取时间段内,以指定网站的目标爬取时间段对应的爬取时间步长为判断周期判断指定网站的数据是否更新,若更新,则从指定网站上爬取数据。本发明能够全面且有效地采集与用户输入的语句相关的数据。
技术关键词
关键词 数据采集方法 大语言模型 网址 分布直方图 语句 文本 时间段 列表 电数字数据处理技术 矩形 可读存储介质 处理器 频率 聚类 网络 存储器 计算机 周期