我实现了几个(大约一打)MapReduce任务,每个任务都是由一个简单的bash脚本执行的工作流的一部分。由于多种原因,我想将工作流程移至Apache Crunch。

但是,我不清楚如何将我的MapReduce任务作为Crunch函数运行而不重新实现它们。有没有一种直接的方法可以将Map和Reduce实现用作Crunch函数?我也想维护Tool的实现,以便MapReduce任务既可以独立运行,也可以作为Crunch工作流的一部分运行。有什么办法吗?

感谢您的任何见解。

最佳答案

对于任何可能偶然发现此问题的人,Crunch库中都提供了一个文档最少的API。但是,这非常简单。

看到这里:https://crunch.apache.org/apidocs/0.10.0/org/apache/crunch/lib/Mapreduce.html

09-26 15:25