从spark启用orc索引的选项是什么?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.option("index", "user_id")
.save(...);
我正在组成
.option("index", uid)
,我必须将那里放到orc的索引列“user_id”中。 最佳答案
您是否尝试过:.partitionBy("user_id")
?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.partitionBy("user_id")
.save(...)
关于apache-spark - 如何使用Spark ORC索引?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47005269/