hadoop - 来自SequenceFile的Spark DataFrame

This question already has an answer here:

Reading Sequence File in PySpark 2.0

(1个答案)

2年前关闭。

sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)

这很好

sqlContext.read.format('sequencefile').load(hdfspath)

但是sequencefile格式不能那样工作。

如何在PySpark中读取序列文件作为数据框？

最佳答案

使用 SparkContext 中的sequenceFile方法:

from pyspark.sql.functions import input_file_name

df = sc.sequenceFile("/tmp/foo/").toDF()