摘要
一种基于分位数草图的外存分布式并行排序方法,它属于计算机技术领域。本发明的目的是为解决现有的外存并行排序算法的可扩展性、适用性差,以及在处理高度偏斜的真实世界数据集时会出现严重的负载失衡的问题。本发明具体为:步骤一、利用p个处理器上的全部本地数据共同组成一组待排序的数据,给待排序的数据选择p‑1个分割点;步骤二、根据选择出的分割点,各个处理器将存储在外存上的每个本地数据分别发送到目标处理器,并接收到来自其它处理器的数据,分别得到每个处理器上的新本地数据;步骤三、每个处理器对自身的新本地数据进行本地排序。本发明方法可以应用于对数据的外存分布式并行排序。