python - 读取由Dataframewriter Pyspark编写的Csv文件

我有使用以下代码写入CSV的数据框：

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行spark时，以上代码片段创建了一个名为avg.csv的文件夹，并且该文件夹包含一些带有part- *的文件
我的工作程序节点或嵌套文件夹上的.csv，然后文件part-*。csv。

现在，当我尝试读取avg.csv时，我得到的路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人可以告诉我我在哪里做错了吗？

最佳答案

Part-00**文件是分布式计算文件（例如MR，spark）的输出。因此，当您尝试存储时，它将始终是由零件文件创建的文件夹，因为这是某些分布式存储的输出，请记住。

因此，尝试使用：

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

关于python - 读取由Dataframewriter Pyspark编写的Csv文件，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/54723661/