大家好,

我的问题是关于齐柏林飞艇的笔记本。我是齐柏林飞艇环境的新手。我有一个AWS账户。我正在研究EMR集群。我想在齐柏林飞艇环境中使用pandas和matplotlib。但是,我得到的错误是没有名为pandas和matplotlib的模块。我找到this教程。我来到了步骤8,但是,我仍然没有遇到相同的问题。
齐柏林飞艇有口译员。即使我确定路径,我仍尝试更改python路径,但仍然出现相同的错误。 This link mentions
如果有人遇到这些问题,请帮助我。

%pyspark
import os
import numpy
import pandas
import matplotlib

print("Numpy "+numpy.__version__)
print("Pandas "+pandas.__version__)
print("Matplotlib "+matplotlib.__version__)

Traceback (most recent call last):
File "/tmp/zeppelin_pyspark-444747300595843376.py", line 367, in <module>
raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
File "/tmp/zeppelin_pyspark-444747300595843376.py", line 355, in <module>
exec(code, _zcUserQueryNameSpace)
File "<stdin>", line 3, in <module>
ImportError: No module named pandas

最佳答案

我意识到自己正在从EC2机器中走出来。我将SSH输入到AWS上的Master节点。我安装了pandas和matplotib。然后在该实例上运行“哪个python”命令。之后,我将其复制到pyspark.python路径。最后,它成功了。

10-02 01:16