当 Apache Spark 将其结果上传到 S3 时,我发现了一个主要的性能问题。根据我的理解,它有这些步骤......

  • 最后阶段的输出写入 HDFS 中的 _temp/ 表,并将其移动到特定 "_temporary" 文件夹内的 S3 文件夹中。
  • 整个过程完成后 - Apache spark 完成 saveAsTextFile 阶段,然后将 "_temporary"S3 文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约 1 分钟(平均大小:600 MB BZ2)]。这部分没有记录在通常的 stderr 日志中。

  • 我在 AWS EMR 上使用 Apache Spark 1.0.1Hadoop 2.2

    有没有人遇到过这个问题?

    更新 1

    如何增加执行此移动过程的线程数?

    任何建议都非常感谢...

    谢谢

    最佳答案

    这已通过 SPARK-3595 ( https://issues.apache.org/jira/browse/SPARK-3595 ) 修复。其中包含在构建 1.1.0.e 和更高版本中(请参阅 https://github.com/awslabs/emr-bootstrap-actions/tree/master/spark )。

    关于amazon-s3 - Apache Spark 到 S3 上传性能问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26046299/

    10-09 07:52
    查看更多