一种基于分布式计算模型的数据处理方法及设备

申请号：CN202510062198

申请日期：2025-01-15

公开号：CN119848143B

公开日期：2025-08-19

类型：发明专利

摘要

本发明涉及一种基于分布式计算模型的数据处理方法及设备，属于数据处理技术领域。包括步骤：使用哈希算法对数据进行初步分区，识别并调整异常分区，通过细粒度划分对异常分区进行细化；识别具有相同时间窗的节点并生成访问策略集合，选择最优访问集进行任务分配；选择核心对象，通过基于密度的聚类算法扩展聚类簇，将所有Map任务的聚类结果进行合并。本发明通过两阶段的划分策略，提高每个Reducer处理的数据量均匀度，再通过采用聚类分析的方法，找出当前分布式处理服务器节点最优访问集进行任务分配，从而提高了数据处理效率和资源利用率，最后通过基于密度的聚类算法对噪声点进行去除，提高了聚类结果的精度。

技术关键词

服务器节点数据处理方法分区策略聚类计算机可执行指令哈希算法邻域 DBSCAN算法作业执行时间轮廓系数动态噪声数据识别出噪声计算器设备