如果默认情况下从HDFS加载文件,则spark每块创建一个分区。但是,当从S3存储桶加载文件时,spark如何确定分区?
最佳答案
请参阅org.apache.hadoop.mapred.FileInputFormat.getSplits()
的代码。
块大小取决于S3文件系统的实现(请参阅FileStatus.getBlockSize()
)。例如。 S3AFileStatus
只需将其设置为等于0
(然后FileInputFormat.computeSplitSize()
起作用)。
另外,如果您的InputFormat不可拆分,则不会拆分:)
关于apache-spark - 从S3存储桶加载文件时,Spark创建多少个分区?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37168716/