几年前的数据报表,到如今酷炫的数据可视化大屏,数据展示的方向越来越高大上了,但是很少人知道在这酷炫背后的故事,今天我们就来聊聊这背后的故事,请准备好小本本记录吧。
一般来说,数据大屏展示的数据都为汇总数据,那何为汇总数据呢,就是我们根据常说的明细数据进行加减乘除等计算,得出的指标数值。当然这个指标是我们人为定义的。比如我们需要看账单的时候,更多的是关心这个月花了多少,而不是每一笔,这样更有意义,而这个月度统计,就是我们人为规定的指标。
这个计算的过程,我们称之为数据处理,这是一个略显庞大的过程。如果只是处理一个月指标还好,如果是处理年度指标,明细数据还多,这个时候还要保证时间,那怎么办?答案:分布式。分布式是什么,打个比方,现在有10万元的1元钱让您数,如果您自己数的话,会非常耗时,但是如果您把这10万元分成10份,由10个人分别数,然后加和,这样就会极大的缩短时间成本,也就是所谓的空间换时间的概念。而这十个人就是我们的十台电脑服务器,我们的DataNode,而分配任务的就是NameNode,这就是一个MapReduce的过程,数钱的过程叫Map,求和的过程叫Reduce。这样我们就能把压力分散,很快的进行数据处理,响应。这也是为什么,每逢大节某些网站承受不了,狂加服务器的原因,异曲同工之妙。
那明细数据从哪里来呢?我们每次消费都会产生一条消费数据,同理,数据是从每个个体产生的,然后层层汇总,最终显示汇总数据。那么这个过程,我们称之为数据抓取传输的过程。这个就跟居委会挨家挨户收集信息差不多,收集的基本信息,再提交到街道,街道再提交到区,区汇总计算后,再提交到市,一样的道理。
说了这么多,大家应该了解我们看到的大屏数据展示的由来了吧,还是挺不容易的,多道工序加工而成,如果说有“舌尖上的中国”,那大屏就该叫做“数据金字塔的顶点”。