用例是:我需要将所有数据从HDFS群集复制到具有相同主控和从属设置的另一个群集,并且我将释放之前的群集并开始在新群集中运行我的作业。

我已经阅读了有关Apache Falcon和Wandisco不间断Hadoop的信息,它们可以帮助实现这种镜像。但是,当我将它们作为我的生态系统的一部分时,我不确定它们是否会提供其他优势(这是否会更具优势?-这取决于我的用例,但我想知道是否特别有用)。根据您的经验,能否提供Falcon vs Wandisco的比喻?

最佳答案

(免责声明:我在WANdisco工作。)

我认为这些产品是互补的。 Falcon除了进行数据传输外还做很多事情,例如设置数据工作流程阶段。 WANdisco的产品执行主动-主动数据复制(这意味着可以从源群集和目标群集中等效地使用数据)。

在您的用例中,如果您使用Falcon,则实际上是在使用DistCP将数据复制到新群集中。您可能需要进行初始传输以获取大量数据,然后在某个时候需要进行最终转换以获取所有增量,然后才能让应用程序在新群集上运行。

如果使用WANdisco产品进行了数据传输,则可以在复制引擎使用Paxos算法协调更改的同时使用两个群集。这可能使增量迁移更加容易。

您会发现连续双主动复制与DistCP相比有所不同的其他情况是备份和灾难恢复以及将数据吸收到多个数据中心中。希望能有所帮助。

关于hadoop - 猎鹰vs万德斯科不间断,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/28695166/

10-10 16:59