我想从Infochimps下载完整的Million Song数据集。我没有使用AWS,但我的大学提供了一个集群,我想将数据下载到该集群。我目前正在使用wget,但是下载它会花很多时间。有没有更好的下载数据的方法?

还有一种方法可以直接将数据下载到Hadoop文件系统,而不是先下载到本地文件系统,然后再使用-copyFromLocal复制到HDFS?

请帮忙。

谢谢!

最佳答案

我认为最好的方法是使用数据聚合工具,例如FlumeChukwa。这两种工具都使我们能够以分布式可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接摄取到Hadoop集群中。但是,您可能需要做一些工作,例如编写自定义源,该自定义源会将数据从源中拉到您的集群中。

高温超导

10-04 21:25
查看更多