从pyspark作业在s3存储桶中动态创建文件夹

本文介绍了从pyspark作业在s3存储桶中动态创建文件夹的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在将数据写入s3存储桶，并使用pyspark创建实木复合地板文件.我的存储桶结构如下所示:

I am writing data into s3 bucket and creating parquet files using pyspark . MY bucket structure looks like below:

s3a://rootfolder/subfolder/table/

如果文件夹不存在，则应在运行时创建这两个文件夹的子文件夹和表，如果文件夹存在，则应该在文件夹表内创建镶木地板文件.

subfolder and table these two folders should be created at run time if folders do not exist , and if folders exist parquet files should inside folder table .

当我从本地计算机运行pyspark程序时，它会创建带有_ $ folder $的额外文件夹(例如 table_ $ folder $ )，但是如果从emr运行相同的程序，它将使用_SUCCESS创建.

when I am running pyspark program from local machine it creates extra folder with _$folder$ (like table_$folder$ ) but if same program is run from emr it creates with _SUCCESS .

writing into s3: (pyspark program)
 data.write.parquet("s3a://rootfolder/sub_folder/table/", mode="overwrite")

是否可以在s3中仅创建文件夹(如果不存在)，并且不创建诸如table_ $ folder $或_SUCCESS的文件夹.

is there way that creates only folder in s3 if do not exist and do not create folders like table_$folder$ or with _SUCCESS .

在s3

从pyspark作业在s3存储桶中动态创建文件夹

问题描述

推荐答案