我是Apache Spark 1.3.1的新手。如何将JSON文件转换为Parquet?

最佳答案

Spark 1.4和更高版本

您可以使用sparkSQL将JSON文件首先读取到DataFrame中,然后将DataFrame写为 Parquet 文件。

val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")

或者
df.save("path/to/parquet/file", "parquet")

检查herehere以获取示例和更多详细信息。

Spark 1.3.1
val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")

与Windows和Spark 1.3.1有关的问题

here所述,在Windows上将DataFrame保存为拼合文件会抛出java.lang.NullPointerException

在这种情况下,请考虑升级到较新的Spark版本。

关于json - 如何使用Apache Spark将JSON文件转换为 Parquet ?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34740619/

10-13 06:39