我有一个包含1个主节点和2个节点(工作人员+数据节点)的Spark集群。
我想添加另一个数据节点。
问题是,当我执行hdfs dfs -setrep -R -w 2时,结果是:

    1st datanode -> DFS Used%: 75.61%
    2nd datanode -> DFS Used%: 66.78%
    3rd datanode -> DFS Used%: 8.83%

您知道如何设法平衡hdfs中的块以使每个块近似为30-> 33%吗?

谢谢

最佳答案

运行集群平衡实用程序 balancer 。这将在整个数据节点之间重新平衡数据。

hdfs balancer -threshold <threshold_value>
-threshold确定磁盘容量的百分比。预设值为10。

这指定必须或应该将每个DataNode的磁盘使用率调整为群集整体使用率的10%以内。

此过程可能需要更长的时间,具体取决于要平衡的数据量,并且不会影响群集操作。

或者,如果选择添加其他节点,则执行Datanode Commissioning

关于hadoop - 在正在运行的spark/hadoop集群中添加hdfs datanode,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42141498/

10-16 03:29