我使用以下命令创建一个dataproc集群

gcloud dataproc clusters create datascience \
--initialization-actions \
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \


但是,当我提交我的PySpark作业时,出现以下错误


例外:worker中的Python版本与驱动程序3.7中的版本不同,PySpark无法以其他次要版本运行。请检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON是否已正确设置。


有什么想法吗?

最佳答案

这是由于master和worker之间的python版本不同。默认情况下,jupyter image安装最新版本的miniconda,该版本使用python3.7。但是,worker仍在使用默认的python3.6。

解:
-在创建主节点时指定miniconda版本,即在主节点中安装python3.6

gcloud dataproc clusters create example-cluster --metadata=MINICONDA_VERSION=4.3.30


注意:


可能需要更新以提供一种更可持续的环境管理解决方案

09-30 15:16
查看更多