我需要将文件输入到map-reduce程序中,但是不应拆分该文件并将其作为整体传递给map函数。一个选项是将issplitable设置为false,但是我该怎么办呢?

最佳答案

1)通常,当文件扩展名为.gz时,isSplitable返回false。

要么

2)您可以编写自己的InputFormat覆盖isSplitable。

要么

3)不要试图使isSplitable返回false。而是将文件的块大小设置为大于文件大小:

hadoop fs -D fs.local.block.size = 1000000000 -put local_name remote_location

关于hadoop - 防止MapReduce程序中的输入 split ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21509865/

10-10 16:58