hadoop - 是否可以在hadoop中创建/使用非并行文件

我们总是谈论如果使用hadoop并行化我们的数据和程序将会有多快。
我想知道是否可以在一个特定的dataNode中保留一个小文件(未并行化)？

最佳答案

HDFS将尝试将任何文件拆分为HDFS块。数据节点不存储整个文件，也不应该尝试存储在特定文件上。让Hadoop管理数据局部性。

无论如何，默认情况下，您的文件将在Hadoop中复制3次。

如果文件很小(取决于Hadoop版本，小于HDFS块大小，则为64或128MB)，则可能是shouldn't be using Hadoop。如果需要并行处理，请从多线程开始。如果您实际上需要分布式流程，那么今天的建议是Spark或Flink，而不是Hadoop(MapReduce)。

如果需要，似乎要object storage，而不是块存储

关于hadoop - 是否可以在hadoop中创建/使用非并行文件，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/47509508/