在make spark应用程序期间,我有一个问题。
在Spark API中,makeRDD函数和parallelize函数之间有什么区别?

最佳答案

没有任何区别。引用makeRDD doctring


此方法与parallelize相同。


如果您看一下实现,只需调用parallelize即可:

def makeRDD[T: ClassTag](
    seq: Seq[T],
    numSlices: Int = defaultParallelism): RDD[T] = withScope {
  parallelize(seq, numSlices)
}


归根结底,这是一个品味问题。要考虑的一件事是makeRDD似乎特定于Scala API。 PySpark和内部SparkR API仅提供parallelize

注意:makeRDD的第二种实现允许您设置位置首选项,但是给定不同的签名,则它不能与parallelize互换。

关于scala - 在Spark API中,makeRDD函数和并行化函数有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31428128/

10-13 07:06