Spark面试整理-如何创建RDD

在 Apache Spark 中，创建 RDD（弹性分布式数据集）可以通过几种不同的方式实现。以下是创建 RDD 的两种主要方法：

1. 从现有的数据集合中创建

这种方法通过对现有的数据集合（如数组或集合）应用并行化操作来创建 RDD。在 Scala、Python 或 Java 等支持的 Spark 编程语言中，可以使用 sparkContext.parallelize 方法。例如：

Scala 示例:

val data = Array(1, 2, 3, 4, 5)
val rdd = sc.parallelize(data)

Python 示例: