在我的map-reduce作业中,映射器的输出类型为<Text, FileAlias>,类FileAlias具有两个属性,如下所示

   public class FileAlias extends Configured implements WritableComparable<FileAlias>{

    public boolean isAlias;
    public String value;
      ...
   }

对于每个输出键(Text类型),只有一个输出值(FileAlias类型)将isAlias属性设置为true。我希望此输出值成为送入reducer的OutputCollector中的第一项。有什么办法吗?

最佳答案

看一看Job对象上的setGroupingComparatorClass方法。您应该能够实现一个比较器,该比较器在传递给reduce任务的Iterable中首先使FileAliasisAlias == true一起使用。

10-04 18:20