从HDFS上传大文件(大于5GB)到S3时出现问题。有没有一种方法可以直接将文件从HDFS上传到S3,而无需将其下载到本地文件系统并使用multipart?

最佳答案

要在HDFS和S3之间复制数据,应使用s3DistCps3DistCp已针对AWS优化,并跨S3存储桶并行高效地复制大量文件。

有关s3DistCp的用法,您可以在这里参考文档:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.html
s3DistCp的代码在此处:https://github.com/libin/s3distcp

08-18 02:04