amazon-s3 - Apache Spark 到 S3 上传性能问题

当 Apache Spark 将其结果上传到 S3 时，我发现了一个主要的性能问题。根据我的理解，它有这些步骤......

最后阶段的输出写入 HDFS 中的 _temp/ 表，并将其移动到特定 "_temporary" 文件夹内的 S3 文件夹中。

整个过程完成后 - Apache spark 完成 saveAsTextFile 阶段，然后将 "_temporary" 中 S3 文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约 1 分钟(平均大小:600 MB BZ2)]。这部分没有记录在通常的 stderr 日志中。

我在 AWS EMR 上使用 Apache Spark 1.0.1 和 Hadoop 2.2。

有没有人遇到过这个问题？

更新 1

如何增加执行此移动过程的线程数？

任何建议都非常感谢...

谢谢

最佳答案

这已通过 SPARK-3595 ( https://issues.apache.org/jira/browse/SPARK-3595 ) 修复。其中包含在构建 1.1.0.e 和更高版本中(请参阅 https://github.com/awslabs/emr-bootstrap-actions/tree/master/spark )。

关于amazon-s3 - Apache Spark 到 S3 上传性能问题，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/26046299/