我刚刚开始学习Mapreduce,并且有一些我想回答的问题。开始:
1)情况1:FileInputFormat作为输入格式。输入路径是包含多个文件要处理的目录。如果我有n个文件,则所有文件都小于hadoop集群中的块大小。为map reduce Job计算出多少个分割?
2)我在名为MyFileInputFormat的类中扩展FileInputFormat,并且重写isSplitable以始终返回false。输入配置与上面相同。 在这种情况下,我会得到n个分割吗?
3)如果说n个文件中的1个文件略大于群集的块大小,那么在第二种情况下我会得到n + 1个分割吗?
先谢谢您的帮助!
最佳答案
让我们从FileInputFormat的基础开始
“公共(public)抽象类FileInputFormat”