apache-spark - 从S3存储桶加载文件时，Spark创建多少个分区？

如果默认情况下从HDFS加载文件，则spark每块创建一个分区。但是，当从S3存储桶加载文件时，spark如何确定分区？

最佳答案

请参阅org.apache.hadoop.mapred.FileInputFormat.getSplits()的代码。

块大小取决于S3文件系统的实现(请参阅FileStatus.getBlockSize())。例如。 S3AFileStatus只需将其设置为等于0(然后FileInputFormat.computeSplitSize()起作用)。

另外，如果您的InputFormat不可拆分，则不会拆分:)

关于apache-spark - 从S3存储桶加载文件时，Spark创建多少个分区？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/37168716/