本文介绍了火花RDD saveAsTextFile gzip的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
是否可以将spark rdd文本文件另存为gzip?
is it possilbe to save a spark rdd text file as gzip?
我可以以某种方式运行它: combPrdGrp3.repartition(10).saveAsTextFile("Combined")
并将其另存为gzip文件吗?
Can I run this somehow: combPrdGrp3.repartition(10).saveAsTextFile("Combined")
and save it as gzip files?
推荐答案
使用
import org.apache.hadoop.io.compress.GzipCodec
combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])
或
sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])
这篇关于火花RDD saveAsTextFile gzip的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!