我创建了 rdd = sc.parallelize(range(200)) 。然后我设置 rdd2 = rdd.cartesian(rdd) 。我发现正如预期的那样,rdd2.count() 是 40,000。但是,当我设置 rdd3 = rdd2.cartesian(rdd) 时,rdd3.count() 小于 20,000。为什么会这样?

最佳答案

这是 SPARK-16589 跟踪的错误。

关于hadoop - PySpark 中的 .cartesian(),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37217735/

10-16 02:56