我正在使用Bzip2格式在Hdfs上压缩文本文件

FileOutputFormat.setCompressOutput(jobConf, true);
FileOutputFormat.setOutputCompressorClass(jobConf,BZip2Codec.class);

并使用mapreduce解压缩
TextInputFormat.setInputPaths(jobConf,"//Bizip file Path");
FileOutputFormat.setOutputPath(jobConf, new Path(outputFilePath));

但输出包含其他制表符分隔的列
Input - 1,XYZ
        2,ABC
Output- 0 -> 1,XYZ
        11-> 2,ABC

虽然,虽然使用unix命令bzip2 -k /filename.txt和b unzip2 /filename.bz2没有添加其他数据。

最佳答案

0,11是行偏移量。如果您不需要在BZip2Codec.class中将输出密钥设置为NullWritable

10-05 22:21