我可以访问Spark集群,并且我的Spark程序通常以

spark = SparkSession \
    .builder \
    .getOrCreate()


问题是:我有一个Python程序尚未使用任何Spark库或RDD,因此不需要像上面那样创建SparkSession。我可以spark-submit原始Python脚本(不导入Spark模块)在单节点上运行吗?

最佳答案

我们已经在注释中添加了“是”和“否”,因此我将添加“取决于” :)

如果您以spark-submit模式使用client python代码,则很有可能会运行,因为它将仅在本地Spark驱动程序进程中执行。

但是,如果您尝试使用--deploy-mode=cluster,它将因异常"User did not initialize spark context"或类似的东西而失败,因为如果没有代码创建SparkSession,则不会在分配的容器中实例化驱动程序。

10-05 21:14
查看更多