只是想知道Parquet谓词下推是否也适用于S3,而不仅限于HDFS。具体来说,如果我们使用Spark(非EMR)。
进一步的解释可能会有所帮助,因为它可能涉及对分布式文件系统的理解。
最佳答案
是的。过滤器下推不依赖于基础文件系统。它仅取决于spark.sql.parquet.filterPushdown
和过滤器的类型(并非所有过滤器都可以下推)。
有关下推逻辑,请参见https://github.com/apache/spark/blob/v2.2.0/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFileFormat.scala#L313。
关于amazon-s3 - Parquet谓词下推在使用Spark非EMR的S3上有效吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34917854/