摘要
本发明涉及一种基于分布式计算模型的数据处理方法及设备,属于数据处理技术领域。包括步骤:使用哈希算法对数据进行初步分区,识别并调整异常分区,通过细粒度划分对异常分区进行细化;识别具有相同时间窗的节点并生成访问策略集合,选择最优访问集进行任务分配;选择核心对象,通过基于密度的聚类算法扩展聚类簇,将所有Map任务的聚类结果进行合并。本发明通过两阶段的划分策略,提高每个Reducer处理的数据量均匀度,再通过采用聚类分析的方法,找出当前分布式处理服务器节点最优访问集进行任务分配,从而提高了数据处理效率和资源利用率,最后通过基于密度的聚类算法对噪声点进行去除,提高了聚类结果的精度。