我有一个具有不同Atr1值的数据框,并且具有其他一些属性,并且我想从中生成一个字典,并考虑字典的键,每个Atr1值(唯一值,如我之前所说的),以及dict的值和Atr2的值。
这是数据框:
+------+------+------+------+
| Atr1 | Atr2 | Atr3 | Atr4 |
+------+------+------+------+
| 'C' | 'B' | 21 | 'H' |
+------+------+------+------+
| 'D' | 'C' | 21 | 'J' |
+------+------+------+------+
| 'E' | 'B' | 21 | 'K' |
+------+------+------+------+
| 'A' | 'D' | 24 | 'I' |
+------+------+------+------+
我想要一个这样的字典:
Dict -> {'C': 'B', 'D': 'C', 'E': 'B', 'A': 'D'}
我该怎么办?
最佳答案
您可以只使用一个简单的collectAsMap()
:
df.select("Atr1", "Atr2").rdd.collectAsMap()
关于python - 如何在Pyspark的Dictionary中转换Dataframe Column1:Column2(key:value)?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46317265/