有时,数据块以不平衡的方式跨数据节点存储。基于 HDFS 块放置策略,第一个副本倾向于存储在写入节点(即客户端节点)上,然后第二个副本存储在远程机架上,第三个副本存储在本地机架上。在这种放置策略下,哪些用例会导致数据块在数据节点之间不平衡?一个可能的原因是,如果写入节点很少,那么数据块的一个副本将存储在这些节点上。还有其他原因吗?
最佳答案
以下是数据倾斜的一些潜在原因:
“hdfs balancer”命令允许管理员重新平衡集群。此外,https://issues.apache.org/jira/browse/HDFS-1804 添加了一个新的块存储策略,该策略将卷上剩余的可用空间考虑在内。
关于hadoop - HDFS上存储的文件不平衡的可能原因是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27475286/