摘要
本申请涉及电数字数据处理技术领域,特别是涉及一种基于大语言模型的数据采集方法、设备及介质。该方法包括:将目标语句输入到大语言模型,得到大语言模型输出的目标文本,并根据目标文本获取目标语句的目标关键词集合;从预设的网址库中获取与目标关键词集合匹配的目标网址列表;根据目标网址列表中的每一网址对应的网站的历史更新时刻集合确定每一网址对应的网站的目标爬取时间段和目标爬取时间段对应的爬取时间步长;在指定网站的目标爬取时间段内,以指定网站的目标爬取时间段对应的爬取时间步长为判断周期判断指定网站的数据是否更新,若更新,则从指定网站上爬取数据。本发明能够全面且有效地采集与用户输入的语句相关的数据。