从spark启用orc索引的选项是什么?

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

我正在组成.option("index", uid),我必须将那里放到orc的索引列“user_id”中。

最佳答案

您是否尝试过:.partitionBy("user_id")

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)

关于apache-spark - 如何使用Spark ORC索引?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47005269/

10-11 17:37