有关于如何级联/缩放优化map-side evaluation的通知
他们使用所谓的部分聚合。
实际上是比合并器更好的方法吗?在某些常见的Hadoop任务(例如字数统计)上是否有性能比较?
如果是这样,那么hadoop将来会支持吗?

最佳答案

实际上,与使用组合器相比,部分聚合的好处更多。

组合器有用的情况是有限的。此外,组合器还优化了任务所需的吞吐量量,而不是减少的数量-这是一个微妙的区别,这会导致明显的性能差异。

在大型分布式工作流中,部分聚合的用例范围更加广泛。同样,可以使用部分聚合来优化工作流所需的作业步骤数。

https://github.com/Cascading/Impatient/wiki/Part-5中显示了示例,该示例使用CountBySumBy部分聚合。如果您回顾该项目在GitHub上的代码提交历史记录,以前曾经使用过GroupByCount,这导致了更多的减少。

09-11 02:48