我有这个配置:

  • Hadoop: v2.7.1 (Yarn)
  • 输入文件:大小= 100 GB。
  • 3个从站:每个都有4个VCORES,速度= 2 GHz,RAM = 8 GB
  • 5个从站:每个都有2个VCORES,速度= 1 GHz,RAM = 2 GB
  • MapReduce程序:WordCount

  • 如何通过将较小的输入拆分分配给5个速度较慢的从属,将较大的输入拆分分配给3个最快的从属,来最大限度地减少WordCount执行时间?

    最佳答案

    对于每台计算机,您可以确定映射/减少插槽的数量,因此,如果要向较慢的计算机发送较少的工作负载,则可以定义,例如,每台速度较慢的计算机有2个映射/ reduce task 插槽,每台机器有4个映射/ reduce task 插槽快速机器。这样,您可以控制集群中每个不同节点所承受的工作量。

    10-02 07:38
    查看更多