摘要
本发明公开了一种基于大数据训练应用的人工智能系统,包括分布式数据采集模块、数据预处理模块、训练集群构建模块、存储模块;所述分布式数据采集模块包括实时采集多源异构数据,包括结构化数据库、非结构化文本、时序传感器数据和网络流数据;所述数据预处理模块获取分布式数据采集模块的输出信息进行并行化数据清洗、特征降维和动态噪声过滤生成标准化数据集;所述训练集群构建模块获取标准化数据集进行样本定量构建为训练用样本集;还包括基于训练用样本集使用的训练模型,所述训练模型输出分类数据至存储模块。本发明与现有技术相比的优点在于:提供一种方便进行数据整理,方便后续提取数据信息的一种基于大数据训练应用的人工智能系统。