使用Hue提交包含Spark-Action的工作流时,出现导入错误。

追溯如下:

2019-01-30 16:31:48,048 [main] INFO  org.apache.spark.deploy.yarn.ApplicationMaster  - Waiting for spark context initialization...

Traceback (most recent call last):
  File "mover.py", line 7, in <module>
    import happybase
ImportError: No module named happybase
2019-01-30 16:31:48,169 [Driver] ERROR org.apache.spark.deploy.yarn.ApplicationMaster  - User application exited with status 1


在我的集群中,我有一个带有所有依赖项的Python virtualenv环境,我的集群是使用Cloudera的Spark指令进行配置的,这里:https://www.cloudera.com/documentation/enterprise/latest/topics/spark_python.html

在控制台中使用spark-submit命令时,我可以运行我的应用程序而不会出现任何问题。问题仅在我使用Hue时出现。

经过研究,我发现本文http://www.learn4master.com/big-data/pyspark/run-pyspark-on-oozie,并且我尝试做同样的事情没有成功。

Hue生成的我的工作流程代码是:

<workflow-app name="Copy by hour" xmlns="uri:oozie:workflow:0.5">
<start to="spark-c88a"/>
<kill name="Kill">
<message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<action name="spark-c88a" retry-max="1" retry-interval="1">
<spark xmlns="uri:oozie:spark-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<configuration>
<property>
<name>spark.executorEnv.PYSPARK_PYTHON</name>
<value>/opt/env_cluster/bin/python2</value>
</property>
<property>
<name>spark.yarn.appMasterEnv.PYSPARK_PYTHON</name>
<value>/opt/env_cluster/bin/python2</value>
</property>
</configuration>
<master>yarn</master>
<mode>cluster</mode>
<name>landing_to_daily</name>
<jar>mover.py</jar>
<arg>1</arg>
<arg>-s</arg>
<arg>eir_landing</arg>
<arg>-d</arg>
<arg>eir_daily</arg>
<file>/user/spark/eir/apps/mover.py#mover.py</file>
</spark>
<ok to="End"/>
<error to="email-77d4"/>
</action>
<action name="email-77d4">
<email xmlns="uri:oozie:email-action:0.2">
<to>[email protected]</to>
<subject>Error | Copy by hour</subject>
<body>Error in Workflow landing to daily </body>
<content_type>text/plain</content_type>
</email>
<ok to="Kill"/>
<error to="Kill"/>
</action>
<end name="End"/>
</workflow-app>

最佳答案

在Cloudera支持的帮助下,我通过以下方式解决了这个问题:


将以下内容添加到“火花选择”中:

--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON = path_to_venv --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON = path_to_venv


2,Spark Launcher还需要设置此环境变量,因此将其设置为作业属性

<property>
<name>oozie.launcher.mapred.child.env</name>
<value>PYSPARK_PYTHON=path_to_venv</value>
</property>



显然,path_to_venv必须在集群的所有节点中都位于同一路径中。

关于python - 在HUE中提交工作流程时出错|依赖项导入错误,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54449240/

10-13 07:45