我有一个具有不同Atr1值的数据框,并且具有其他一些属性,并且我想从中生成一个字典,并考虑字典的键,每个Atr1值(唯一值,如我之前所说的),以及dict的值和Atr2的值。

这是数据框:

+------+------+------+------+
| Atr1 | Atr2 | Atr3 | Atr4 |
+------+------+------+------+
|  'C' |  'B' |  21  |  'H' |
+------+------+------+------+
|  'D' |  'C' |  21  |  'J' |
+------+------+------+------+
|  'E' |  'B' |  21  |  'K' |
+------+------+------+------+
|  'A' |  'D' |  24  |  'I' |
+------+------+------+------+


我想要一个这样的字典:

Dict -> {'C': 'B', 'D': 'C', 'E': 'B', 'A': 'D'}


我该怎么办?

最佳答案

您可以只使用一个简单的collectAsMap()

df.select("Atr1", "Atr2").rdd.collectAsMap()

关于python - 如何在Pyspark的Dictionary中转换Dataframe Column1:Column2(key:value)?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46317265/

10-12 17:04