在make spark应用程序期间,我有一个问题。
在Spark API中,makeRDD
函数和parallelize
函数之间有什么区别?
最佳答案
没有任何区别。引用makeRDD doctring:
此方法与parallelize
相同。
如果您看一下实现,只需调用parallelize
即可:
def makeRDD[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T] = withScope {
parallelize(seq, numSlices)
}
归根结底,这是一个品味问题。要考虑的一件事是
makeRDD
似乎特定于Scala API。 PySpark和内部SparkR API仅提供parallelize
。注意:
makeRDD
的第二种实现允许您设置位置首选项,但是给定不同的签名,则它不能与parallelize
互换。关于scala - 在Spark API中,makeRDD函数和并行化函数有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31428128/