如何覆盖火花输出目录

如何覆盖火花输出目录

本文介绍了如何覆盖火花输出目录的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有其产生的数据每分钟火花流应用程序。
我需要保存/覆盖处理的数据结果。

I have a spark streaming application which produces a dataset for every minute.I need to save/overwrite the results of the processed data.

当我试图覆盖数据集org.apache.hadoop.ma pred.FileAlreadyExistsException停止执行。

When I tried to overwrite the dataset org.apache.hadoop.mapred.FileAlreadyExistsException stops the execution.

我设置星火属性设置(spark.files.overwrite,真),但没有运气。

I set the Spark property set("spark.files.overwrite","true") , but there is no luck.

如何从火花覆盖或predelete文件?

How to overwrite or Predelete the files from spark?

推荐答案

该参数的文档 spark.files.overwrite 这样说:无论覆盖,通过添加的文件 SparkContext.addFile()当目标文件存在,其内容不匹配源。因此它具有上saveAsTextFiles方法没有效果。

The documentation for the parameter spark.files.overwrite says this: "Whether to overwrite files added through SparkContext.addFile() when the target file exists and its contents do not match those of the source." So it has no effect on saveAsTextFiles method.

您可以保存文件之​​前做到这一点:

You could do this before saving the file:

val hadoopConf = new org.apache.hadoop.conf.Configuration()
val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://localhost:9000"), hadoopConf)
try { hdfs.delete(new org.apache.hadoop.fs.Path(filepath), true) } catch { case _ : Throwable => { } }

阿斯这里解释:
http://apache-spark-user-list.1001560.n3.nabble.com/How-can-I-make-Spark-1-0-saveAsTextFile-to-overwrite-existing-file-td6696.html

这篇关于如何覆盖火花输出目录的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-01 04:53