我的 pig 在MapReduce模式下运行。现在,我正在执行联接操作。 HDFS中有一个文件的三个复制,我如何知道清管器从哪个DataNode加载数据?
我试图使用解释来显示计划。
但是它仅显示数据是从hdfs:// masterNodeIP:8020 / data加载的
这是否意味着仅从此masterNode加载了所有需要的数据文件?
最佳答案
打开MapReduce管理Web ui(通常为http://masterNode:50030/)并找到作业(您可以通过id进行标识,pig将其记录下来)。打开它,您将看到一堆 map task ,每个任务都从您的集群分配给特定节点。每个映射任务对应一个HDFS块。 MapReduce始终尝试将任务执行并置到存储相应块的节点上。