我实现了几个(大约一打)MapReduce任务,每个任务都是由一个简单的bash脚本执行的工作流的一部分。由于多种原因,我想将工作流程移至Apache Crunch。
但是,我不清楚如何将我的MapReduce任务作为Crunch函数运行而不重新实现它们。有没有一种直接的方法可以将Map和Reduce实现用作Crunch函数?我也想维护Tool的实现,以便MapReduce任务既可以独立运行,也可以作为Crunch工作流的一部分运行。有什么办法吗?
感谢您的任何见解。
最佳答案
对于任何可能偶然发现此问题的人,Crunch库中都提供了一个文档最少的API。但是,这非常简单。
看到这里:https://crunch.apache.org/apidocs/0.10.0/org/apache/crunch/lib/Mapreduce.html