只是想知道Parquet谓词下推是否也适用于S3,而不仅限于HDFS。具体来说,如果我们使用Spark(非EMR)。

进一步的解释可能会有所帮助,因为它可能涉及对分布式文件系统的理解。

最佳答案

是的。过滤器下推不依赖于基础文件系统。它仅取决于spark.sql.parquet.filterPushdown和过滤器的类型(并非所有过滤器都可以下推)。

有关下推逻辑,请参见https://github.com/apache/spark/blob/v2.2.0/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFileFormat.scala#L313

关于amazon-s3 - Parquet谓词下推在使用Spark非EMR的S3上有效吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34917854/

10-13 00:05