在有关实现大数据分析决策树的google论文中,他们提到了有关正向调度图约简工作的内容。
他们说如果他们当前有2个作业要运行,他们将运行第一个作业,然后开始设置第二个作业。他们有一个线程来查看第一个作业何时完成以及何时完成,他们将输入提供给第二个作业并启动它。这为他们节省了很多时间,因为他们提到的算法具有迭代工作。
我想知道如何在hadoop上完成此操作。这是论文的引文。前向调度在第6.1节中
Planet
最佳答案
如果您不想为此使用Oozie,则可以直接在Java代码中执行此操作。
我写了关于如何在Hadoop中实现迭代作业的文章:
http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html
但是请注意,这并不是很有效,对于迭代繁琐的算法,您最好使用Apache Hama。