让我们考虑一对RDD:

x = sc.parallelize([("a", 1), ("b", 1), ("a", 4), ("c", 7)])

是否有更有效的替代方案:
x.map(lambda x: x[1]).reduce(lambda x, y: x+y)

为了找到所有值的和

最佳答案

由于xPairRDD方法,因此可以使用values方法而不是手动提取值:

x.values().sum()

关于python - pyspark;如何有效地减少值(value),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31537958/

10-12 18:23