我将一个 csv 文件加载到 pyspark 中,如下(在 pyspark shell 中):
>>> from pyspark.sql import SQLContext
>>> sqlContext = SQLContext(sc)
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv')
但我收到此错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'read'
>>>
我正在使用 spark 1.3.1 并且我正在尝试使用 spark-csv
最佳答案
您正在尝试使用 Spark 1.4+
语法。
对于 Spark 1.3
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
df.select("year", "model").save("newcars.csv", "com.databricks.spark.csv")