sparkstreaming原理 | 七旬少女

Spark Streaming是Spark生态系统当中一个重要的框架，它建立在Spark Core之上，下面这幅图也可以看出Sparking Streaming在Spark生态系统中地位。

sparkstreaming原理-LMLPHP

Spark Streaming是Spark Core的扩展应用，它具有可扩展，高吞吐量，对于流数据的可容错性等特点。可以监控来自Kafka,Flume,HDFS。Kinesis,Twitter，ZeroMQ或者Scoket套接字的数据通过复杂的算法以及一系列的计算分析数据，并且可以将分析结果存入到HDFS文件系统，数据库以及前端页面中。

sparkstreaming原理-LMLPHP

对于DStream如何理解呢？，离散流，表示连续的数据流，它是一系列连续的RDD，它是建立在Spark之上的不可变的，分布式数据集，在DStream中的每一个RDD包含着一定时间间隔的数据，

sparkstreaming原理-LMLPHP

对于Spark Core它的核心就是RDD，对于Spark Streaming来说，它的核心是DStream，DStream类似于RDD，它实质上一系列的RDD的集合，DStream可以按照秒数将数据流进行批量的划分。首先从接收到流数据之后，将其划分为多个batch，然后提交给Spark集群进行计算，最后将结果批量输出到HDFS或者数据库以及前端页面展示等等

我们都知道Spark Core在初始化时会生成一个SparkContext对象来对数据进行后续的处理，相对应的Spark Streaming会创建一个Streaming Context，它的底层是SparkContext，也就是说它会将任务提交给SparkContext来执行，这也很好的解释了DStream是一系列的RDD。当启动Spark Streaming应用的时候，首先会在一个节点的Executor上启动一个Receiver接受者，然后当从数据源写入数据的时候会被Receiver接收，接收到数据之后Receiver会将数据Split成很多个block，然后备份到各个节点（Replicate Blocks 容灾恢复），然后Receiver向StreamingContext进行块报告，说明数据在那几个节点的Executor上，接着在一定间隔时间内StreamingContext会将数据处理为RDD并且交给SparkContext划分到各个节点进行并行计算。

sparkstream性能调优

通过有效地使用集群资源，减少了每一批数据的处理时间
设置正确的批处理大小，以便能够以接收到的速度处理数据批次（也就是说数据处理和数据摄入保持一致）
输入的数据必须序列化，流数据生成的RDD当我们调用持久化的时候序列化，序列化工具：kryo，avro
其中批处理时间应该小于批处理间隔
GC调优，堆分为：老年代和新一代

与RDDs类似，转换允许修改输入DStream中的数据。DStreams支持许多在普通SparkRDD上可用的转换。一些常见的问题如下。