运行mapreduce 2的集群没有作业跟踪器,而是分为两个单独的组件:资源管理器和作业管理器。但是,这些内容对用户是透明的,并且在提交mapreduce作业时,他不需要知道集群是在运行mapreduce 1还是2。
我不太明白的是 yarn 应用。它与常规mapreduce应用程序有何不同?将mapreduce作业作为 yarn 应用程序运行等有什么好处?有人可以帮我一下吗?
最佳答案
MR1具有作业跟踪器和任务跟踪器,它们负责Map Reduce应用程序。
在MR2中,Apache通过使用YARN将映射/归约过程的管理与集群的资源管理分开。与我们在MR1中相比,YARN是更好的资源管理器。它还具有多功能性。 MR2构建在YARN之上。
除了Map reduce之外,我们还可以在Yarn之上运行spark,storm,Hbase,Tex等应用程序,而使用MR1则无法实现。
以下是MR1和MR2的体系结构。
HDFS <---> MR
HDFS <----> Yarn <----> MR
关于hadoop - mapreduce应用程序和yarn应用程序之间有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/29682584/