我在 HDFS 数据目录上有 300000 多个文件。

当我执行 hadoop fs -ls 时,出现内存不足错误,提示已超出 GC 限制。每个集群节点都有 256 GB 的 RAM。我如何解决它?

最佳答案

编写一个python脚本将文件拆分成多个目录并运行它们。首先,当您知道目录中有 300000 多个文件时,您想实现什么目标。如果你想连接更好地将它们排列成子目录。

关于hadoop fs -ls 内存不足错误,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24768019/

10-15 22:19