python - pyspark如何像在scala.drop中一样删除rdd列

如下所示的文件videos.csv

2482cal-2792-48da,Action,Comedy
099acca-8888-48ca,Action,Comedy

在Spark Scala中，可以使用.drop(1)删除RDD列1，以删除rdd列1的所有行，例如482cal-2792-48da和099acca-8888-48ca。

我想知道如何在PySpark的PySpark rdd中执行此操作，如下面第2行代码所示

Spark Scala

val records = sc.textFile("file:///home/videos.csv")
val words = records.flatMap(record => record.split(",").drop(1))**

PySpark

videos_rdd = sc.textFile("/user/spark_dataset/datastax_ds320/videos.csv", 4)
videos_rdd_flat = videos_rdd.flatMap(lambda t:t.split(","))**

谢谢

最佳答案

您可以使用拼接：

videos_rdd.flatMap(lambda t: t.split(",")[1:])