我正在使用单节点hadoop作业进行一些数据准备。我工作中的映射器/组合器输出许多键(超过5M或6M),显然工作进行缓慢甚至失败。映射阶段最多可运行120个映射器,并且只有一个化简器(它们是自动确定的,我没有为它们设置任何值)。我想优化工作,以便更有效地进行改组/排序阶段。我将mapreduce.task.io.sort.mb
增加到300m,但作业失败,因为它的值大于mapper堆。然后,我将mapred.child.java.opts
设置为-Xmx1024m,但由于无法初始化输出收集器而再次失败。这些方案的最佳做法是什么?
最佳答案
首先,由于您使用的是单节点群集,因此您无法进行太多优化。在单个节点群集上,您的容器/插槽数量将有限,并且对于要处理的数据量(5到600万个 key ),您的作业将始终运行缓慢,并且可能还会失败。
我将针对完全分布式的Hadoop设置回答此问题。 《 Hadoop权威指南》一书中有一个部分(“随机和排序”),您应该阅读该部分以调整随机和排序阶段。我的回答主要受本节内容的影响,也受我自己调整MapReduce作业的经验的影响。
您可以执行以下操作以达到“随机播放”和“排序”效率:
mapreduce.job.reduce.slowstart.completedmaps
确定。在完成一定比例的映射器之前,它不会启动reducer。默认情况下,将其设置为“0.05”(这意味着在5%的映射器完成后, reducer 启动)。如果 reducer 提早启动,则大多数 reducer 将处于空闲状态,直到所有映射器完成。同样,化简器可能会占用插槽,否则映射器可能会使用这些插槽进行处理。通过控制此选项,您可以最佳地使用映射器/缩小器插槽,并改善随机播放期间所花费的时间。 mapreduce.map.output.compress
),以便将较少的数据写入磁盘并传输到reducer。 以下是可以调整以提高Shuffle和Sort阶段性能的其他配置参数(请参阅此处的这些配置的描述:https://hadoop.apache.org/docs/r2.4.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml):
mapreduce.map.sort.spill.percent
:确定映射器使用的内存缓冲区的阈值。当达到此阈值时,缓冲区的内容将溢出到磁盘。因此,此值确定溢出到磁盘mapreduce.task.io.sort.factor
:排序期间一次合并的最小流数。因此,在化简器端,如果有50个mapper输出并将此值设置为10,那么将进行5轮合并(平均10轮用于合并)。 mapreduce.shuffle.max.threads
:用于将映射输出复制到 reducer 的工作线程数。 mapreduce.reduce.shuffle.input.buffer.percent
:在reducer的shuffle阶段,应使用多少堆存储映射输出。此设置确定在溢出到磁盘之前可以在内存中保留的映射器输出量。 mapreduce.reduce.shuffle.merge.percent
:用于启动合并过程并溢出到磁盘mapreduce.reduce.merge.inmem.threshold
:启动合并过程所需的 map 输出数。当到达mapreduce.reduce.shuffle.merge.percent
或mapreduce.reduce.merge.inmem.threshold
时, map 输出将合并并溢出到磁盘上。 关于hadoop - 如何优化Hadoop作业中的混洗/排序阶段,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34186583/