我对spark和pyspark比较陌生

final_plogfiles = plogfiles.filter(lambda x: len(x)>0)

我编写这段代码是为了过滤掉RDD plogfiles中的空行。它没有删除空行。
我也试过了
plogfiles.filter(lambda x: len(x.split())>0)

但是如果我使用plogfiles.filter(lambda x: x.split()),所有行中的尾随和前导空格都将被修剪
我只想过滤掉空行。我想知道我错在哪里。

最佳答案

plogfiles是RDD吗?
以下对我很有用:

lines = sc.textFile(input_file)
non_empty_lines = lines.filter(lambda x: len(x)>0 )

09-25 21:31