我有很多小文件,比20000多。

我想节省在mapper初始化上花费的时间,那么是否可以只使用500个mapper,每个mapper处理40个小文件作为输入?

如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!

顺便说一句,我知道我应该合并这些小文件,这也是必要的步骤。

最佳答案

可以使用CombineFileInputFormat。它位于oldnew MR API中。这是一个关于如何使用它的漂亮的blog entry

关于file - 多个小文件作为 map 输入减少,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11467049/

10-09 01:11