我需要将文件输入到map-reduce程序中,但是不应拆分该文件并将其作为整体传递给map函数。一个选项是将issplitable设置为false,但是我该怎么办呢?
最佳答案
1)通常,当文件扩展名为.gz时,isSplitable返回false。
要么
2)您可以编写自己的InputFormat覆盖isSplitable。
要么
3)不要试图使isSplitable返回false。而是将文件的块大小设置为大于文件大小:
hadoop fs -D fs.local.block.size = 1000000000 -put local_name remote_location
关于hadoop - 防止MapReduce程序中的输入 split ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21509865/