我想知道我是否可以比较Hadoop中的两个连续作业。如果没有,我将不胜感激,如果有人可以告诉我如何进行该操作。确切地说,我想根据两个工作究竟做了什么来比较这些工作?这样做的原因是创建关于在行为方面在Hadoop上执行的相似作业数量的统计信息。例如,在同一输入上执行相同排序功能的次数。
例如,如果第一项工作做了类似SortList(A)的工作,而另一些工作做了SortList(A)+ Group(result(SortList(A))。现在,我想知道在Hadoop中是否有一些映射存储在JobID X等地方->排序列表(A)。
到目前为止,我认为这个问题是在Hadoop中找到入口点,并试图了解job是如何创建的以及使用jobID以及以什么形式(以代码形式或某种描述的形式)保留了哪些信息,但是我没有能够成功解决。
最佳答案
Hadoop的Counters可能是一个不错的起点。您可以定义自己的计数器名称(就像每个计数器名称都是您正在使用的数据集一样),并在每次对它执行排序时递增该计数器。但是,查找正在处理的数据集可能是比较困难的任务。
这是我发现的一个教程:
http://philippeadjiman.com/blog/2010/01/07/hadoop-tutorial-series-issue-3-counters-in-action/
关于hadoop - 想要比较Hadoop上的两个连续作业,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5772550/