摘要
本发明公开了一种基于AI驱动的智能数据湖管理和优化系统及方法,该系统包括:数据摄取模块,用以从多个数据源中自动化的收集数据;数据预处理模块,用以对原始数据进行预处理;自然语言处理模块,用以用于对非结构化的文本数据进行深度分析,提取出关键的业务信息和实体;知识图谱构建模块,用以将各类数据中的实体和关系进行结构化表示;数据分类与标注模块,用以对进入数据湖的数据进行自动分类与标注;跨源数据关联模块,用以实现跨源数据的智能关联。本发明能够从数据湖中快速提取关键信息,极大提高了数据的利用率,帮助企业从现有数据中挖掘出更高的业务价值,进而促进企业的业务创新和决策优化。