该内容存在于HDFS documentation上。我不明白最后一行的原因。根据我的说法,如果有更多的机架,我们可以在每个机架上并行写入。这将减少总的写入时间。甚至它说,由于我们需要将数据传输到多个机架,因此写入成本也会增加。但是无论如何,我们都将数据传输到机架。

请解释我哪里错了?

http://hadoop.apache.org/docs/stable/hdfs_design.html

最佳答案

您加粗的语句旨在传达网络跃点的成本。有一个隐含的假设,即每个机柜的顶部都有一个机架式交换机,专门为该机架中的服务器提供连接。

如果要采用将每个副本放置到唯一机架的“简单”策略,那么您将为此方案中的每个块调用一个2跳以上的网络副本。与一个本地机架副本和另一个机架外副本的推荐策略相比,这是“非最佳”的,在该策略中,只有一个2+跳副本和一个1跳副本。

同样,此建议仅在位于机架交换顶部的网络拓扑中成立。如果要使用其他更平坦的网络拓扑,则将是无关紧要的。

10-08 05:17