今天先把spark的各种基本转换和动作总结下,以后有时间把各种用法放上去。
1 RDD基本转换操作
map、flagMap、distinct coalesce、repartition coalesce、repartition randomSplit、glom union、intersection、subtract mapPartitions、mapPartitionsWithIndex mapPartitions、mapPartitionsWithIndex zip、zipPartitions zipWithIndex、zipWithUniqueId partitionBy、mapValues、flatMapValues combineByKey、foldByKey groupByKey、reduceByKey、reduceByKeyLocally cogroup、join leftOuterJoin、rightOuterJoin、subtractByKey
2 RDD行动Action操作
first、count、reduce、collect take、top、takeOrdered aggregate、fold、lookup countByKey、foreach、foreachPartition、sortBy saveAsTextFile、saveAsSequenceFile、saveAsObjectFile saveAsHadoopFile、saveAsHadoopDataset saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset