我有很多小文件,比20000多。
我想节省在mapper初始化上花费的时间,那么是否可以只使用500个mapper,每个mapper处理40个小文件作为输入?
如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!
顺便说一句,我知道我应该合并这些小文件,这也是必要的步骤。
最佳答案
可以使用CombineFileInputFormat。它位于old和new MR API中。这是一个关于如何使用它的漂亮的blog entry。
关于file - 多个小文件作为 map 输入减少,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11467049/