我的问题基于 this question 。我有一个 Spark 对 RDD (key, count): [(a,1), (b,2), (c,1), (d,3)]

如何找到计数最高的键和实际计数?

最佳答案

(sc
    .parallelize([("a",1), ("b",5), ("c",1), ("d",3)])
    .max(key=lambda x:x[1]))

确实返回 ('b', 5) ,而不仅仅是 5max 的第一个参数是用于比较的键(此处明确),但 max 仍然返回整个值,这里是完整的元组。

关于python - spark查找最大值和关联的键,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35642142/

10-12 21:35