我知道您是根据系统(事务,常规日志等)决定复制因子的。但是,在确定复制因子时,是否可以遵循或考虑任何经验法则?

最佳答案

通常主要因素是

fault tolerance
Performance by reducing network traffic.

对于常见情况,当复制因子为3时,HDFS的放置策略是将一个副本放置在本地机架中的一个节点上,将另一个副本放置在不同(远程)机架中的一个节点上,最后一个副本放置在同一机架中的另一个节点上远程机架。该策略减少了机架间的写流量,通常可以提高写性能。机架故障的机会远少于节点故障的机会。此策略不会影响数据的可靠性和可用性保证。但是,由于一个块仅放置在两个唯一的机架中,而不是三个,因此它确实减少了读取数据时使用的总网络带宽。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,其余三分之一则均匀地分布在其余机架上。此策略可提高写入性能,而不会影响数据可靠性或读取性能。

10-08 01:47