我有一个包含1个主节点和2个节点(工作人员+数据节点)的Spark集群。
我想添加另一个数据节点。
问题是,当我执行hdfs dfs -setrep -R -w 2
时,结果是:
1st datanode -> DFS Used%: 75.61%
2nd datanode -> DFS Used%: 66.78%
3rd datanode -> DFS Used%: 8.83%
您知道如何设法平衡hdfs中的块以使每个块近似为30-> 33%吗?
谢谢
最佳答案
运行集群平衡实用程序 balancer
。这将在整个数据节点之间重新平衡数据。
hdfs balancer -threshold <threshold_value>
-threshold
确定磁盘容量的百分比。预设值为10。这指定必须或应该将每个DataNode的磁盘使用率调整为群集整体使用率的10%以内。
此过程可能需要更长的时间,具体取决于要平衡的数据量,并且不会影响群集操作。
或者,如果选择添加其他节点,则执行Datanode Commissioning。
关于hadoop - 在正在运行的spark/hadoop集群中添加hdfs datanode,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42141498/