关于Apache Spark
1
Why Apache Spark2
关于Apache Spark3
如何安装Apache Spark4
Apache Spark的工作原理5
spark弹性分布式数据集6
RDD持久性7
spark共享变量8
Spark SQL9
Spark Streaming
原文链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/关于Apache-Spark/
Apache Spark是一个开放源码,Hadoop兼容,快速,富于表现力的集群计算平台。它是在加州大学伯克利分校的AMPLabs创建的,作为伯克利数据分析平台(BDAS)的一部分。它已经成为一个顶级的Apache项目。图4显示了当前Apache Spark堆栈的各种组件。
它有五大优点:
- 闪电的计算速度,因为数据被加载到分布式存储器(RAM)的机器集群上。可以对数据进行快速转换,并根据需要进行缓存,以便后续使用。已经注意到,由于内存不足,一些数据溢出到磁盘上时,Apache
Spark会比Hadoop Map更快地处理数据,当所有数据都适合内存时,数据速度提升10倍。 - 通过Java,Scala,Python,SQL(用于交互式查询)内置的标准API可以很方便地访问,并且具有丰富的机器学习库可用于开箱即用。
- 与现有的Hadoop v1(SIMR)和2.x(YARN)生态系统的兼容性使公司能够利用其现有的基础架构。
- 方便的下载和安装过程。方便的shell(REPL:Read-Eval-Print-Loop)交互式学习API。
- 提高生产率,因为高层次结构将重点放在计算内容上。
此外,Spark在Scala中实现,这意味着代码非常简洁。