我使用以下命令创建一个dataproc集群
gcloud dataproc clusters create datascience \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
但是,当我提交我的PySpark作业时,出现以下错误
例外:worker中的Python版本与驱动程序3.7中的版本不同,PySpark无法以其他次要版本运行。请检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON是否已正确设置。
有什么想法吗?
最佳答案
这是由于master和worker之间的python版本不同。默认情况下,jupyter image
安装最新版本的miniconda,该版本使用python3.7。但是,worker仍在使用默认的python3.6。
解:
-在创建主节点时指定miniconda版本,即在主节点中安装python3.6
gcloud dataproc clusters create example-cluster --metadata=MINICONDA_VERSION=4.3.30
注意:
可能需要更新以提供一种更可持续的环境管理解决方案