我在HDFS上有一个目录目录,我想遍历目录。有什么简单的方法可以使用SparkContext对象使用Spark做到这一点?
最佳答案
您可以使用 org.apache.hadoop.fs.FileSystem
。具体来说,FileSystem.listFiles([path], true)
还有Spark ...
FileSystem.get(sc.hadoopConfiguration).listFiles(..., true)
编辑
值得注意的是,好的做法是获取与
FileSystem
方案关联的Path
。path.getFileSystem(sc.hadoopConfiguration).listFiles(path, true)