摘要
本申请提供了一种基于多源分布式数据的数据湖构建方法及系统,涉及数据湖构建领域。该方法包括:首先在分布式数据源的各节点部署数据采集代理并建立分布式协同机制,通过数据采集代理对数据进行结构化分析,得到数据特征并建立字段间关系。然后构建语义描述信息,并基于该信息生成RDF三元组存储在源端节点。接着将RDF三元组输入至本体注册服务进行处理,生成分布式本体,并通过分析RDF三元组与分布式本体中概念的对应关系,得到语义等价规则和映射规则。最后根据这些规则将分布式数据源组织为统一数据视图,建立分布式索引,并配置访问权限,最终构建包含统一数据视图、分布式索引和访问权限的数据湖。该方法避免了集中式处理导致的性能瓶颈问题。