我们总是谈论如果使用hadoop并行化我们的数据和程序将会有多快。
我想知道是否可以在一个特定的dataNode中保留一个小文件(未并行化)?
最佳答案
HDFS将尝试将任何文件拆分为HDFS块。数据节点不存储整个文件,也不应该尝试存储在特定文件上。让Hadoop管理数据局部性。
无论如何,默认情况下,您的文件将在Hadoop中复制3次。
如果文件很小(取决于Hadoop版本,小于HDFS块大小,则为64或128MB),则可能是shouldn't be using Hadoop。如果需要并行处理,请从多线程开始。如果您实际上需要分布式流程,那么今天的建议是Spark或Flink,而不是Hadoop(MapReduce)。
如果需要,似乎要object storage,而不是块存储
关于hadoop - 是否可以在hadoop中创建/使用非并行文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47509508/