hadoop - hdfs put/moveFromLocal是否不在数据节点之间分配数据？

我发现了类似的问题
Hadoop HDFS is not distributing blocks of data evenly

但我的问题是何时复制因子= 1

我仍然想了解为什么HDFS无法在群集节点之间平均分配文件块？当我在此类文件上加载/运行数据框操作时，这将导致从一开始就出现数据偏斜。我想念什么吗？

最佳答案

即使复制因子为1，文件仍会拆分并以HDFS块大小的倍数存储。积木放置是尽力而为的，并非完全平衡。复制放置3会选择一个随机节点，然后是同一机架上的另一个节点，然后是随机离开机架的另一个节点

您需要弄清文件的大小以及要查看数据是否正在拆分的位置

注意:并非所有文件格式都是可拆分的

关于hadoop - hdfs put/moveFromLocal是否不在数据节点之间分配数据？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/59363801/