我正在使用单节点hadoop作业进行一些数据准备。我工作中的映射器/组合器输出许多键(超过5M或6M),显然工作进行缓慢甚至失败。映射阶段最多可运行120个映射器,并且只有一个化简器(它们是自动确定的,我没有为它们设置任何值)。我想优化工作,以便更有效地进行改组/排序阶段。我将mapreduce.task.io.sort.mb增加到300m,但作业失败,因为它的值大于mapper堆。然后,我将mapred.child.java.opts设置为-Xmx1024m,但由于无法初始化输出收集器而再次失败。这些方案的最佳做法是什么?

最佳答案

首先,由于您使用的是单节点群集,因此您无法进行太多优化。在单个节点群集上,您的容器/插槽数量将有限,并且对于要处理的数据量(5到600万个 key ),您的作业将始终运行缓慢,并且可能还会失败。

我将针对完全分布式的Hadoop设置回答此问题。 《 Hadoop权威指南》一书中有一个部分(“随机和排序”),您应该阅读该部分以调整随机和排序阶段。我的回答主要受本节内容的影响,也受我自己调整MapReduce作业的经验的影响。

您可以执行以下操作以达到“随机播放”和“排序”效率:

  • 组合器:使用组合器将减少传输到每个缩减器的数据量,因为合并器在映射器端合并了输出。
  • reducer 数量:选择最佳的 reducer 数量。如果数据量巨大,那么减少一个reduce并不是一个好主意。同样,将reducer的数量设置为较高的数目也不是一个好主意,因为reducer的数量还决定了映射器端的分区数。在这里查看链接:https://github.com/paulhoule/infovore/wiki/Choosing-the-number-of-reducers
  • 何时启动 reducer :;您可以控制何时开始执行reduce任务。这由YARN中的配置mapreduce.job.reduce.slowstart.completedmaps确定。在完成一定比例的映射器之前,它不会启动reducer。默认情况下,将其设置为“0.05”(这意味着在5%的映射器完成后, reducer 启动)。如果 reducer 提早启动,则大多数 reducer 将处于空闲状态,直到所有映射器完成。同样,化简器可能会占用插槽,否则映射器可能会使用这些插槽进行处理。通过控制此选项,您可以最佳地使用映射器/缩小器插槽,并改善随机播放期间所花费的时间。
  • 压缩映射器输出:建议压缩映射器输出(由配置确定:mapreduce.map.output.compress),以便将较少的数据写入磁盘并传输到reducer。
  • 调整配置“mapreduce.task.io.sort.mb” :增加排序器在映射过程中使用的缓冲区大小。这将减少溢出到磁盘上的次数。
  • 调整配置“mapreduce.reduce.input.buffer.percent” :如果您的reduce任务具有较少的内存需求,则可以将该值设置为较高的百分比。这意味着,在缩减阶段(混洗阶段之后)将使用更多的堆空间来保留映射输出,从而减少溢出到磁盘上的次数。
  • 调整配置“mapreduce.reduce.shuffle.parallelcopies” :用于将 map 输出复制到 reducer 的线程数。在此处检查链接:how to tune mapred.reduce.parallel.copies?

  • 以下是可以调整以提高Shuffle和Sort阶段性能的其他配置参数(请参阅此处的这些配置的描述:https://hadoop.apache.org/docs/r2.4.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml):
  • mapreduce.map.sort.spill.percent:确定映射器使用的内存缓冲区的阈值。当达到此阈值时,缓冲区的内容将溢出到磁盘。因此,此值确定溢出到磁盘
  • 的数量
  • mapreduce.task.io.sort.factor:排序期间一次合并的最小流数。因此,在化简器端,如果有50个mapper输出并将此值设置为10,那么将进行5轮合并(平均10轮用于合并)。
  • mapreduce.shuffle.max.threads:用于将映射输出复制到 reducer 的工作线程数。
  • mapreduce.reduce.shuffle.input.buffer.percent:在reducer的shuffle阶段,应使用多少堆存储映射输出。此设置确定在溢出到磁盘之前可以在内存中保留的映射器输出量。
  • mapreduce.reduce.shuffle.merge.percent:用于启动合并过程并溢出到磁盘
  • 的阈值
  • mapreduce.reduce.merge.inmem.threshold:启动合并过程所需的 map 输出数。当到达mapreduce.reduce.shuffle.merge.percentmapreduce.reduce.merge.inmem.threshold时, map 输出将合并并溢出到磁盘上。
  • 关于hadoop - 如何优化Hadoop作业中的混洗/排序阶段,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34186583/

    10-16 03:03