如果默认情况下从HDFS加载文件,则spark每块创建一个分区。但是,当从S3存储桶加载文件时,spark如何确定分区?

最佳答案

请参阅org.apache.hadoop.mapred.FileInputFormat.getSplits()的代码。

块大小取决于S3文件系统的实现(请参阅FileStatus.getBlockSize())。例如。 S3AFileStatus只需将其设置为等于0(然后FileInputFormat.computeSplitSize()起作用)。

另外,如果您的InputFormat不可拆分,则不会拆分:)

关于apache-spark - 从S3存储桶加载文件时,Spark创建多少个分区?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37168716/

10-12 17:56
查看更多