我目前正在尝试使用笔记本电脑使用EMR分析一些数据。我遇到的问题是,当我使用PySpark内核时,我无法弄清楚该如何包含特定的工件。具体来说,我正在尝试包含org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0,通常在启动PySpark环境时通过使用--packages在命令行中通常这样做论据。我是否必须包括Bootstrap操作?我不确定我什至会放在那里。非常感激任何的帮助。
最佳答案
我在reddit上询问,EMR团队的某人回答:
您可以使用%%configure
块作为笔记本中的第一个单元格来指定其他程序包。您的情况如下所示:
%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}
这是加载spark-avro的example notebook的屏幕截图。
(免责声明:EMR团队中的AWS员工👋)