这个问题不会讨论Hadoop或Spark中的特定情况。
当我读MapReduce: Simplified Data Processing on Large Clusters时,我很困惑
那么,主服务器如何决定一个 worker 应该执行Map任务还是Reduce任务?
如果只先分配 reduce task ,我们将永远不会完成工作吗? (因为将不会完成Map任务)
最佳答案
只有在完成 map 和混洗阶段所需的数据之后,才需要运行Reduce。
在MapReduce的Hadoop实现的上下文中, map task 是根据数据局部性决定的,否则,将选择由YARN决定的任何开放资源
关于hadoop - MapReduce主流程如何决定将哪个任务分配给单个工作流程?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59597782/