我正试图用python处理12gb的数据,为此我迫切需要使用spark,但我想我太笨了,不能单独使用命令行,也不能使用internet,所以我想我必须这么做,
到目前为止,我已经下载了火花和解压缩焦油文件或任何东西(抱歉的语言,但我感到愚蠢和出去),但现在我看不到任何地方去。我看过Spark网站文档上的说明,上面写着:
spark还提供了python api。要在python解释器中以交互方式运行spark,请使用bin/pyspark
,但在哪里可以这样做?请帮忙。
编辑:我正在使用Windows 10
注:我总是遇到问题时,试图安装一些主要是因为我似乎无法理解命令提示符
最佳答案
如果你更熟悉JooYter笔记本,你可以安装“AA>”,它将PyScale、Scala、SQL和SARKR内核与SCAPK集成在一起。
用于安装toree
pip install toree
jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark
如果要安装其他内核,可以使用
jupyter toree install --interpreters=SparkR,SQl,Scala
现在运行
jupyter notebook
在用户界面中选择新笔记本时,您将看到以下内核可用
Apache Toree-Pyspark
Apache Toree-SparkR
Apache Toree-SQL
Apache Toree-Scala