1,Mapper方法:如果在map方法之前执行一些程序用setup,之后用cleanup.同理在Reducer方法中也有setup和cleanup。

2,map任务是并行执行,没有谁先谁后,如果是两个job,则只能覆盖setup方法。

3,有几个block就有几个map任务。

4,当block的大小和InputSplit大小一致的情况下,data local的map任务数量才最多。

5,批处理的意思是执行过程中无法干预程序,只能直接杀死程序。

6,主节点在ApplicationMaster上。

7,java也可以获取内存信息,进程信息。

8,map产生的结果是放在Linux上而不是HDFS上。

9,reduce和map任务不在一起的话,他们之间的数据通过网络传输。

10,yarn 的调用机制:

Hadoop之yarn调用机制-LMLPHP

05-11 12:59