数据与算法架构提升之路

数据与算法架构提升之路

一道面试题引入主题

spark 3.0 大版本发布,Spark SQL 的优化占比将近 50%;而像PySpark、Mllib 和 Streaming 的优化占比都不超过 10%,Graph 的占比几乎可以忽略不计。这是否意味着 Spark 社区逐渐放弃了其他计算领域,只专注于数据分析 ?

Spark进化论:从RDD到DataFrame,揭秘Spark SQL如何成为性能引擎的幕后英雄-LMLPHP

这个问题的标准答案是:“Spark SQL 取代 Spark Core,成为新一代的引擎内核,所有其他子框架如 Mllib、Streaming 和 Graph,都可以共享 Spark SQL 的性能优化,都能从 Spark社区对于 Spark SQL 的投入中受益。”不过,面试官可没有那么好对付,一旦你这么说,他/ 她可能会追问:“为什么需要 Spark SQL 这个新一代引擎内核?Spark Core 有什么问题吗?Spark SQL 解决了 Spark Core 的哪些问题?怎么解决的?”

下面从RDD 的痛点说起,一步一步带你探讨 DataFrame 出现的必然性,Spark Core 的局限性,以及它和 Spark SQL的关系。

RDD 之痛:优化空间受限 

07-28 12:28