hadoop - 在正在运行的spark/hadoop集群中添加hdfs datanode

我有一个包含1个主节点和2个节点(工作人员+数据节点)的Spark集群。
我想添加另一个数据节点。
问题是，当我执行hdfs dfs -setrep -R -w 2时，结果是:

    1st datanode -> DFS Used%: 75.61%
    2nd datanode -> DFS Used%: 66.78%
    3rd datanode -> DFS Used%: 8.83%

您知道如何设法平衡hdfs中的块以使每个块近似为30-> 33％吗？

谢谢

最佳答案

运行集群平衡实用程序 balancer 。这将在整个数据节点之间重新平衡数据。

hdfs balancer -threshold <threshold_value>

-threshold确定磁盘容量的百分比。预设值为10。

这指定必须或应该将每个DataNode的磁盘使用率调整为群集整体使用率的10％以内。

此过程可能需要更长的时间，具体取决于要平衡的数据量，并且不会影响群集操作。

或者，如果选择添加其他节点，则执行Datanode Commissioning。

关于hadoop - 在正在运行的spark/hadoop集群中添加hdfs datanode，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/42141498/

dataNode

hadoop - 在正在运行的spark/hadoop集群中添加hdfs datanode