amazon-web-services - 在EMR上使用笔记本时，如何在PySpark中包括软件包？

我目前正在尝试使用笔记本电脑使用EMR分析一些数据。我遇到的问题是，当我使用PySpark内核时，我无法弄清楚该如何包含特定的工件。具体来说，我正在尝试包含org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0，通常在启动PySpark环境时通过使用--packages在命令行中通常这样做论据。我是否必须包括Bootstrap操作？我不确定我什至会放在那里。非常感激任何的帮助。

最佳答案

我在reddit上询问，EMR团队的某人回答:

您可以使用%%configure块作为笔记本中的第一个单元格来指定其他程序包。您的情况如下所示:

%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}

这是加载spark-avro的example notebook的屏幕截图。

(免责声明:EMR团队中的AWS员工👋)