具体来说,假设我们有一个文件夹,其中包含10k的制表符分隔的csv文件,具有以下属性格式(每个csv文件约为10GB):

id  name    address city...
1   Matt    add1    LA...
2   Will    add2    LA...
3   Lucy    add3    SF...
...

我们有一个基于上面“名称”的查找表
name    gender
Matt    M
Lucy    F
...

现在我们有兴趣将每个csv文件的前100,000行输出为以下格式:
id  name    gender
1   Matt    M
...

我们可以使用pyspark有效处理此问题吗?

如何并行处理这些10k csv文件?

最佳答案

您可以在python中这样做以利用文件的1000首行:

top1000 = sc.parallelize("YourFile.csv").map(lambda line : line.split("CsvSeparator")).take(1000)

关于hadoop - 如何使用spark进行map-reduce流选择文件夹下所有csv文件的N列,前M行?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30809719/

10-16 21:44
查看更多