如果在Hadoop系统中,一个系统的输入取决于其他系统的输出,则无法实现并行计算。
有什么办法解决这个问题?
请提供详细的解决方案或任何资源链接。
最佳答案
这个问题有点含糊,但是幸运的是有一个通用的答案。
如果不能在一个map-reduce阶段中完成所有操作,例如由于依赖关系,则可以在多个阶段中进行。
一个简单的例子是:
map 减少 map 减少
当然,这是有局限性的,如果第2行的所有处理都依赖于第1行的最终处理,那么根本不可能并行处理第1行和第2行。
关于hadoop - 如果一个系统的输入依赖于另一个系统的输出,那么在hadoop中会发生什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41912902/