从HDFS上传大文件(大于5GB)到S3时出现问题。有没有一种方法可以直接将文件从HDFS上传到S3,而无需将其下载到本地文件系统并使用multipart?
最佳答案
要在HDFS和S3之间复制数据,应使用s3DistCp
。 s3DistCp
已针对AWS优化,并跨S3存储桶并行高效地复制大量文件。
有关s3DistCp
的用法,您可以在这里参考文档:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.htmls3DistCp
的代码在此处:https://github.com/libin/s3distcp