考虑我确实有dataframe
包含以下数据,
val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))
val rdd = sc.parallelize(seq)
val df = rdd.toDF("id","name")
我想要
output
为:1,“约翰”
2,《迈克尔》
3,“假”
4,“丹”
我怎么只能从
select
中的row
中和dataset
上都允许重复的column
。 最佳答案
您可以在数据框/数据集上使用dropDuplicates()。
关于mysql - 如何从apache-spark的数据帧的列中重复值中仅选择第一行?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47581001/