我不太了解Hadoop中NullWritable的概念。它的作用是什么?为什么RCFile格式的outputKeyClass是NullWritable.class而outputValueClass是BytesRefArrayWritable.class

最佳答案

这是因为没有用于RCFiles的密钥。从纯文本文件(例如CSV)读取时,密钥通常是文件中的字节偏移量。由于RCFiles具有列式存储格式,因此实际上没有键可用于标识行,因为行分散在不同的列集中。 NullWritable本质上是ignore this value

09-11 11:56