数据倾斜:
partitionbykey
原因:
例如单词统计
hell0,1
hell0,1
hell0,1
hell0,1
world,1
...
在reducebykey的时候
根据key的hash值就行分区
相同key的就进入同一个分区
如果相同key很多的话,那么这些相同值都会在同一个分区里面
在reducebykey之前增加 一个 map 环节 该map 将 key加随机数
在reducebykey之后再加 一个 map 环节 该map将上个map 对key加的随机数 去除后 再聚合运算