MapReduce的运行流程
MapReduce的运行流程
基本概念:
- Job&Task:要完成一个作业(Job),就要分成很多个Task,Task又分为MapTask和ReduceTask
- JobTracker
- TaskTracker
Hadoop MapReduce体系结构
JobTracker的角色
- 作业调度
- 分配任务、监控任务执行进度
- 监控TaskTracker的状态
TaskTracker的角色
- 执行任务
- 汇报任务状态
MapReduce作业执行过程
MapReduce的容错机制
重复执行
出错有可能是硬件的问题,也有可能是数据的问题,首先会进行重复执行,如果重复执行了4次还是错误,那么就放弃推测执行
Map端都算完之后,可能会出现某个节点算得特别慢的情况。这个时候JobTracker可能会认为该节点算得特别慢可能是出现了问题,那么这个时候就会增加一台TaskTracker执行,两个节点谁先算完,就把另一个的任务计算丢弃