我有一个map-reduce作业,其中映射器负责群集数据记录。读取数据记录后,我将其添加到list。如何知道何时读取所有数据记录就可以开始将list聚类?

最佳答案

Mapper接口(interface)提供了一种cleanup方法,该方法在任务完成时被调用。您可以将其用作挂钩,以触发需要使用对象的list执行的任何其他逻辑。我不得不问,为什么不使用Reducer任务来执行此处理呢?

关于hadoop - 如何在映射器中缓存所有数据记录并在最后处理它们?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20765380/

10-16 01:23