海量数据查找中位数

现在有10亿个int型的数字（JAVA中 int 型占4B），以及一台可用内存为1GB的机器，如何找出这10亿个数字的中位数？

中位数定义：数字排序之后，位于中间的那个数。比如将10亿个数字进行排序（位置从1到10亿），排序之后，位于第5亿个位置的那个数就是中位数。

一种方法是定义一个长度为10亿的整型数组，采用排序算法排序。但是：

10亿个数字，每个数字在内存中占4B，10亿个数字完全加载到内存中需要：10*10⁸*4B ，约为：4GB内存。显然不能把所有的数字都装入内存。

这里，采用基于二进制位比较和快速排序算法中的“分割思想”来寻找中位数。具体如下：

假设10亿个数字保存在一个大文件中，依次读一部分文件到内存(不超过内存的限制：1GB)，将每个数字用二进制表示，比较二进制的最高位(第32位)，如果数字的最高位为0，则将这个数字写入 file_0文件中；如果最高位为 1，则将该数字写入file_1文件中。【这里的最高位类似于快速排序中的枢轴元素】

从而将10亿个数字分成了两个文件（几乎是二分的），假设 file_0文件中有 6亿个数字，file_1文件中有 4亿个数字。那么中位数就在 file_0 文件中，并且是 file_0 文件中所有数字排序之后的第 1亿个数字。

【为什么呢？因为10亿个数字的中位数是10亿个数排序之后的第5亿个数。现在file_0有6亿个数，file_1有4亿个数，file_0中的数都比file_1中的数要大（最高位为符号位，file_1中的数都是负数，file_0中的数都是正数，也即这里一共只有4亿个负数，排序之后的第5亿个数一定是正数，那么排序之后的第5亿个数一定位于file_0中）】。除去4亿个负数，中位数就是6亿个正数从小到大排序之后的第 1 亿个数。

现在，我们只需要处理 file_0 文件了（不需要再考虑file_1文件）。对于 file_0 文件，同样采取上面的措施处理：将file_0文件依次读一部分到内存(不超内存限制：1GB)，将每个数字用二进制表示，比较二进制的 次高位（第31位），如果数字的次高位为0，写入file_0_0文件中；如果次高位为1，写入file_0_1文件中。

现假设 file_0_0文件中有3亿个数字，file_0_1中也有3亿个数字，则中位数就是：file_0_0文件中的数字从小到大排序之后的第1亿个数字。

抛弃file_0_1文件，继续对 file_0_0文件根据次次高位(第30位) 划分，假设此次划分的两个文件为：file_0_0_0中有0.5亿个数字，file_0_0_1中有2.5亿个数字，那么中位数就是 file_0_0_1文件中的所有数字排序之后的第 0.5亿个数。

......

按照上述思路，直到划分的文件可直接加载进内存时（比如划分的文件中只有5KW个数字了），就可以直接对数字进行快速排序，找出中位数了。当然，你也使用“快排的分割算法”来找出中位数(比使用快速排序要快)

总结：上面的海量数据寻找中位数，其实就是利用了“分割”思想，每次将问题空间大约分解成原问题空间的一半左右。（划分成两个文件，直接丢弃其中一个文件），故总的复杂度可视为O(logN) N=10亿。

参考资料：

快速排序中的分割算法的解析与应用

五种常用的算法设计技巧之二：分治算法

海量数据处理之BitMap

原文：http://www.cnblogs.com/hapjin/p/5769087.html

posted @ 2016-08-13 22:34 大熊猫同学阅读(19821) 评论(0) 收藏举报

刷新页面返回顶部

hapjin

海量数据查找中位数

公告