摘要
本发明提供的基于大语言模型的多源数据自动化采集方法,包括:分析历史采集数据的特征分布,结合当前数据源的状态,动态生成最优采集策略;实时调度采集任务,得到动态调度的数据流;对所述动态调度的数据流进行实时异常检测与自适应补偿,得到自容错数据流;分析所述自容错数据流的实体关联及业务逻辑,预测潜在的数据需求点;自动扩展数据采集范围,得到知识增强的数据资产;识别所述数据资产的数据传输流的协议特征,基于协议特征映射的解析器对数据进行解析,得到协议无关标准化数据;进行语义噪声过滤与跨模态清洗,得到语义纯净数据。在本发明中,克服了现有多源数据采集技术无法进行协议适配以及自适应策略优化的缺陷。