当 Apache Spark 将其结果上传到 S3 时,我发现了一个主要的性能问题。根据我的理解,它有这些步骤......
_temp/
表,并将其移动到特定 "_temporary"
文件夹内的 S3
文件夹中。 saveAsTextFile
阶段,然后将 "_temporary"
中 S3
文件夹中的文件移动到主文件夹中。这实际上需要很长时间[每个文件大约 1 分钟(平均大小:600 MB BZ2)]。这部分没有记录在通常的 stderr
日志中。 我在 AWS EMR 上使用 Apache
Spark 1.0.1
和 Hadoop 2.2
。有没有人遇到过这个问题?
更新 1
如何增加执行此移动过程的线程数?
任何建议都非常感谢...
谢谢
最佳答案
这已通过 SPARK-3595 ( https://issues.apache.org/jira/browse/SPARK-3595 ) 修复。其中包含在构建 1.1.0.e 和更高版本中(请参阅 https://github.com/awslabs/emr-bootstrap-actions/tree/master/spark )。
关于amazon-s3 - Apache Spark 到 S3 上传性能问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26046299/