我有1 TB的未排序字数(word:count),我想运行一个map reduce作业,该作业会选择数量最大的字。在这种情况下,我希望有一个在所有reduce作业中共享的变量,该作业将保存到目前为止具有最大单词数的单词。 reduce函数将仅检查此变量并在必要时对其进行更新。那可能吗?谢谢
最佳答案
你可以
在reduce()方法中的
在cleanup()方法中的
如果您需要运行多个reducer,则可以修改reducer的cleanup()方法,以将单词及其计数作为键值对写出到上下文中。与上面的原始缩减器类似的后续缩减器可以轻松找到出现次数最多的单词。