我创建了 rdd = sc.parallelize(range(200))
。然后我设置 rdd2 = rdd.cartesian(rdd)
。我发现正如预期的那样,rdd2.count()
是 40,000。但是,当我设置 rdd3 = rdd2.cartesian(rdd)
时,rdd3.count()
小于 20,000。为什么会这样?
最佳答案
这是 SPARK-16589 跟踪的错误。
关于hadoop - PySpark 中的 .cartesian(),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37217735/