我知道 sparklyr 具有以下读取文件方法:

  • spark_read_csv
  • spark_read_parquet
  • spark_read_json

  • 读取兽人文件怎么样?这个库还支持吗?

    我知道我可以在 SparkR 或 read.orc 中使用 this solution ,但我想将我的代码保留在 sparklyr 中。

    最佳答案

    您可以按照我在 Transfer data from database to Spark using sparklyr 的回答中描述的相同方式使用低级 Spark API:

    library(dplyr)
    library(sparklyr)
    
    sc <- spark_connect(...)
    
    spark_session(sc) %>%
      invoke("read") %>%
      invoke("format", "orc") %>%
      invoke("load", path) %>%
      invoke("createOrReplaceTempView", name)
    
    df <- tbl(sc, name)
    

    其中 name 是用于标识表的任意名称

    在当前的 sparklyr 版本中,您应该能够将上面的内容替换为 spark_read_source :
    spark_read_source(sc, name, source = "orc", options = list(path = path))
    

    关于r - 是否可以在 sparklyr 中将 ORC 文件读取到 Spark Data Frame?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44028752/

    10-11 07:50