我发现了类似的问题
Hadoop HDFS is not distributing blocks of data evenly
但我的问题是何时复制因子= 1
我仍然想了解为什么HDFS无法在群集节点之间平均分配文件块?当我在此类文件上加载/运行数据框操作时,这将导致从一开始就出现数据偏斜。我想念什么吗?
最佳答案
即使复制因子为1,文件仍会拆分并以HDFS块大小的倍数存储。积木放置是尽力而为的,并非完全平衡。复制放置3会选择一个随机节点,然后是同一机架上的另一个节点,然后是随机离开机架的另一个节点
您需要弄清文件的大小以及要查看数据是否正在拆分的位置
注意:并非所有文件格式都是可拆分的
关于hadoop - hdfs put/moveFromLocal是否不在数据节点之间分配数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59363801/