在 Apache Spark 中,创建 RDD(弹性分布式数据集)可以通过几种不同的方式实现。以下是创建 RDD 的两种主要方法:
1. 从现有的数据集合中创建
这种方法通过对现有的数据集合(如数组或集合)应用并行化操作来创建 RDD。在 Scala、Python 或 Java 等支持的 Spark 编程语言中,可以使用 sparkContext.parallelize 方法。例如:
Scala 示例:
val data = Array(1, 2, 3, 4, 5)
val rdd = sc.parallelize(data)
Python 示例: