如果在Hadoop系统中,一个系统的输入取决于其他系统的输出,则无法实现并行计算。

有什么办法解决这个问题?
请提供详细的解决方案或任何资源链接。

最佳答案

这个问题有点含糊,但是幸运的是有一个通用的答案。

如果不能在一个map-reduce阶段中完成所有操作,例如由于依赖关系,则可以在多个阶段中进行。

一个简单的例子是:

map 减少 map 减少

当然,这是有局限性的,如果第2行的所有处理都依赖于第1行的最终处理,那么根本不可能并行处理第1行和第2行。

关于hadoop - 如果一个系统的输入依赖于另一个系统的输出,那么在hadoop中会发生什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41912902/

10-14 19:17
查看更多