apache-spark - 如何使用Spark ORC索引？

从spark启用orc索引的选项是什么？

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

我正在组成.option("index", uid)，我必须将那里放到orc的索引列“user_id”中。

最佳答案

您是否尝试过:.partitionBy("user_id")？

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)

关于apache-spark - 如何使用Spark ORC索引？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/47005269/