hadoop - PySpark 中的 .cartesian()

我创建了 rdd = sc.parallelize(range(200)) 。然后我设置 rdd2 = rdd.cartesian(rdd) 。我发现正如预期的那样，rdd2.count() 是 40,000。但是，当我设置 rdd3 = rdd2.cartesian(rdd) 时，rdd3.count() 小于 20,000。为什么会这样？

最佳答案

这是 SPARK-16589 跟踪的错误。

关于hadoop - PySpark 中的 .cartesian()，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/37217735/