我阅读了Amazon's S3DistCp的文档-它说,



这并不是无关紧要的,尤其是在具有大型HDFS群集的情况下。有人知道常规的Hadoop DistCp是否具有将文件暂存到临时文件夹中的相同行为吗?

最佳答案

Distcp不使用临时文件夹,而使用distcp Map Map作为内部/内部群集中的文件副本。同样用于HDFS到S3。如果AFAIK distcp由于某种原因失败,则不会使整个文件副本失败。

如果总共需要复制500 GB的文件,并且已经复制了200 GB的文件并且distcp失败,则S3中将有200 GB的数据。当您尝试重新运行distcp作业时,它将跳过已经存在的文件。

有关命令的更多信息,请参见distcp指南here

关于hadoop - distcp和s3distcp之间的临时存储使用,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/28400968/

10-16 06:09