This question already has an answer here:
Reading Sequence File in PySpark 2.0
(1个答案)
2年前关闭。
这很好
但是sequencefile格式不能那样工作。
如何在PySpark中读取序列文件作为数据框?
(1个答案)
2年前关闭。
sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)
这很好
sqlContext.read.format('sequencefile').load(hdfspath)
但是sequencefile格式不能那样工作。
如何在PySpark中读取序列文件作为数据框?
最佳答案
使用 SparkContext 中的sequenceFile
方法:
from pyspark.sql.functions import input_file_name
df = sc.sequenceFile("/tmp/foo/").toDF()
08-28 11:09