1亿数据找出最大的1w个
1. 分块法
解法:A. 采用分块法,将1亿数据分成100w一块,共100块。
B. 对每块进行快速排序,分成两堆,如果大堆大于1w个,则对大堆再次进行快速排序,直到小于等于1w停止
(假设此时大堆有N个),此时对小堆进行排序,取最大的10000-N个,这样就找到了这100w中最大的1w个。
C. 100块,每块选出最大的1w,再对这100w使用同样的方法,找出最大的1w个
2. Bit-Map
适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下
解法:用一个例子来说明吧,这样直观一点。
假设对7, 6, 3, 5这四个数进行排序,首先初始化一个byte,8位,可表示为0 0 0 0 0 0 0 0
对于7,将第七位置1,对剩下几个数执行同样操作,则最后该byte变为 0 0 1 0 1 1 1 0
最后一步,遍历,将置1位的序号逐个输出,即3,5, 6,7
3. 红黑树
解法:用一个红黑树维护这1w个数,然后遍历其他数字,来替换红黑树中最小的数(这是在网上看到的算法,
我感觉用赢 者树也是可以的)
如果数据中有重复,则对于Bit-Map,找出前1w个数,对这1w个数建立Hash Table,然后再次遍历这一亿个数,同时对Hash Table中的数字 计数,最后根据计数找出前1w个(包含重复)