1亿数据找出最大的1w个

1. 分块法

解法:A. 采用分块法,将1亿数据分成100w一块,共100块。

            B. 对每块进行快速排序,分成两堆,如果大堆大于1w个,则对大堆再次进行快速排序,直到小于等于1w停止

             (假设此时大堆有N个),此时对小堆进行排序,取最大的10000-N个,这样就找到了这100w中最大的1w个。

            C. 100块,每块选出最大的1w,再对这100w使用同样的方法,找出最大的1w个

2. Bit-Map

适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下

解法:用一个例子来说明吧,这样直观一点。

            假设对7, 6, 3, 5这四个数进行排序,首先初始化一个byte,8位,可表示为0 0 0 0 0 0 0 0

            对于7,将第七位置1,对剩下几个数执行同样操作,则最后该byte变为 0 0 1 0 1 1 1 0

            最后一步,遍历,将置1位的序号逐个输出,即3,5, 6,7

3. 红黑树

解法:用一个红黑树维护这1w个数,然后遍历其他数字,来替换红黑树中最小的数(这是在网上看到的算法,

            我感觉用赢 者树也是可以的)


如果数据中有重复,则对于Bit-Map,找出前1w个数,对这1w个数建立Hash Table,然后再次遍历这一亿个数,同时对Hash Table中的数字 计数,最后根据计数找出前1w个(包含重复)


03-31 04:40