学会了BitMap的原理,所以我们一定要来好好折腾一下自己,没有环境也要创造环境搞事情

(3)大数据 -- BitMap应用-LMLPHP

一、准备数据

首先,用世界上最*的语言创建一个大文件

<?php

    set_time_limit(0);
    $max = pow(2, 32) - 1;
    $count = 你喜欢多少就多少;
    while ($count > 0) {
        $arr = array();
        for ($i = 0; $i < 10000; ++$i) {
            $arr[] = mt_rand(0, $max);
        }
        $content = $count > 10000 ? implode(PHP_EOL, $arr) . PHP_EOL : implode(PHP_EOL, $arr);
        file_put_contents('./smalldata.txt', $content, FILE_APPEND);
        $count -= 10000;
        unset($arr);
    }

// 别人高大上的大数据,我们这种民间作坊就叫小数据 

(3)大数据 -- BitMap应用-LMLPHP

生成了一个5g多的文件,我忘了当时写了多少个数据,大概5E左右个自然数吧。

(3)大数据 -- BitMap应用-LMLPHP

二、思路以及方案

A、

既然是一行一个数字,那就要一行一行的读取文件(应该有一次读取多行的方法,不过我暂时没找到),然后set bit。空间确定限制在512MB+了,时间复杂度也是O(n)没跑了,但是一行一行的读取也确实比较慢,那么就用多线程减少一下时间好了。(实现多线程有几个方法,我这里用到了实现runnable接口这一种)

B、

首先给多个线程划分好读取文件的区域,第n行 ~ 第n + m行,这样就需要可以任意读取文件某一个位置的工具,这里用到了RandomAccessFile,先把文件大小除以线程个数确定大概范围,然后递归一个一个byte的地读,递归出口是读取到换行符或者到文件结尾。

思路和方案大概就是这样,代码在我的gayhub上面,拉到最下面就是地址。

C、

其实靠上面两条就可以做出来了,不过这的要这样子做的话,效率会非常低,因为性能瓶颈都在IO流上,查了网上优化文件读取的方式,是用MappedByteBuffer。(我开始用了RandomAccessFile,后面查了发现它是一个一个byte的读,慢到爆炸)

D、

最后我开了4个线程去排序,花了差不多700s的时间 

(3)大数据 -- BitMap应用-LMLPHP

这是我用了差不多两个月的空余时间才做出来的,性能上一定还有很多优化的空间的,应该主要还是在IO流这块,不过我所以暂时不去优化它了,

代码的gayhub地址:gay里gay气

--------------------------------------------------------------------------------------------------------------------------------------------

看完我的小数据,再看看别人家真正的大数据处理:

2016年11月10日,具有计算奥运会之称的Sort Benchmark全球排序竞赛公布2016年最终成绩,腾讯云大数据联合团队用时不到99秒(98.8秒)就完成100TB的数据排序,打破了去年329秒的纪录。在更早前,百度创造的纪录是716秒,Hadoop的纪录是4222秒。 

(3)大数据 -- BitMap应用-LMLPHP

08-28 14:59