MapReduce的运行流程

MapReduce的运行流程

基本概念:

  • Job&Task:要完成一个作业(Job),就要分成很多个Task,Task又分为MapTask和ReduceTask
  • JobTracker
  • TaskTracker

Hadoop MapReduce体系结构

hadoop笔记之MapReduce的运行流程-LMLPHP

JobTracker的角色

  1. 作业调度
  2. 分配任务、监控任务执行进度
  3. 监控TaskTracker的状态

TaskTracker的角色

  1. 执行任务
  2. 汇报任务状态

MapReduce作业执行过程

hadoop笔记之MapReduce的运行流程-LMLPHP

MapReduce的容错机制

  1. 重复执行

    出错有可能是硬件的问题,也有可能是数据的问题,首先会进行重复执行,如果重复执行了4次还是错误,那么就放弃

  2. 推测执行

    Map端都算完之后,可能会出现某个节点算得特别慢的情况。这个时候JobTracker可能会认为该节点算得特别慢可能是出现了问题,那么这个时候就会增加一台TaskTracker执行,两个节点谁先算完,就把另一个的任务计算丢弃

05-11 10:52