我们有一个盒子,每天有TB级的数据(10-20TB),驱动器上的每个文件的大小从兆字节到千兆字节不等。

我们希望将所有这些文件发送到一组“披萨盒”,它们将在其中使用和处理文件。

除了distcp(hadoop),我似乎找不到能处理这种数据量的任何东西。 Robocopy / etc不会。

有谁知道可以处理这种类型的委派(在披萨盒之间共享工作)并且具有可靠的文件传输的解决方案?

最佳答案

看看Flume http://archive.cloudera.com/cdh/3/flume/UserGuide.html

Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。该系统是集中管理的,并允许智能动态管理。它使用一个简单的可扩展数据模型,该模型可用于在线分析应用程序。

要安装它https://wiki.cloudera.com/display/DOC/Flume+Installation

关于networking - 分布式,错误处理,TB数据的复制,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3870652/

10-16 22:30
查看更多