我正在使用S3DistCp将内容从S3复制到Amazon EMR HDFS。对于某些作业,我空间不足,希望通过减少复制因子来解决此问题。但是我看不到在工作水平上实现这一目标的方法。有人可以帮忙吗?
最佳答案
通常,您不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(如果发生故障)和提高性能(通过使数据更接近计算操作)。最好将群集保留为预定义的值。
默认情况下,Amazon EMR将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的默认复制因子设置为2,而将10个以上核心节点的默认复制因子设置为3。
从理论上讲,您可以更改dfs.replication
设置,但这可能不是解决当前问题的最佳方法。