一:Spark核心模块

1:概述

        Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

大数据Spark教程从入门到精通第三篇:Spark核心模块-LMLPHP

        Spark SQL操作结构化数据的模块

        Spark Streaming 对流式数据处理的模块。

        Spark MLlib对机器学习支持的一个功能模块。学习难度很高

        Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

        Spark Core

        Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

        Spark SQL

        Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

        Spark Streaming

        Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

05-10 13:33