考虑我确实有dataframe包含以下数据,

val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))

val rdd = sc.parallelize(seq)

val df = rdd.toDF("id","name")


我想要output为:


  1,“约翰”
  
  2,《迈克尔》
  
  3,“假”
  
  4,“丹”


我怎么只能从select中的row中和dataset上都允许重复的column

最佳答案

您可以在数据框/数据集上使用dropDuplicates()。

关于mysql - 如何从apache-spark的数据帧的列中重复值中仅选择第一行?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47581001/

10-10 21:50
查看更多