我对spark和pyspark比较陌生
final_plogfiles = plogfiles.filter(lambda x: len(x)>0)
我编写这段代码是为了过滤掉RDD plogfiles中的空行。它没有删除空行。
我也试过了
plogfiles.filter(lambda x: len(x.split())>0)
但是如果我使用
plogfiles.filter(lambda x: x.split())
,所有行中的尾随和前导空格都将被修剪我只想过滤掉空行。我想知道我错在哪里。
最佳答案
plogfiles是RDD吗?
以下对我很有用:
lines = sc.textFile(input_file)
non_empty_lines = lines.filter(lambda x: len(x)>0 )