This question already has an answer here:
Reading Sequence File in PySpark 2.0

(1个答案)


2年前关闭。



sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)

这很好
sqlContext.read.format('sequencefile').load(hdfspath)

但是sequencefile格式不能那样工作。

如何在PySpark中读取序列文件作为数据框?

最佳答案

使用 SparkContext 中的sequenceFile方法:

from pyspark.sql.functions import input_file_name

df = sc.sequenceFile("/tmp/foo/").toDF()

08-28 11:09