我想从Infochimps下载完整的Million Song数据集。我没有使用AWS,但我的大学提供了一个集群,我想将数据下载到该集群。我目前正在使用wget,但是下载它会花很多时间。有没有更好的下载数据的方法?
还有一种方法可以直接将数据下载到Hadoop文件系统,而不是先下载到本地文件系统,然后再使用-copyFromLocal复制到HDFS?
请帮忙。
谢谢!
最佳答案
我认为最好的方法是使用数据聚合工具,例如Flume或Chukwa。这两种工具都使我们能够以分布式可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接摄取到Hadoop集群中。但是,您可能需要做一些工作,例如编写自定义源,该自定义源会将数据从源中拉到您的集群中。
高温超导