我可以访问Spark集群,并且我的Spark程序通常以
spark = SparkSession \
.builder \
.getOrCreate()
问题是:我有一个Python程序尚未使用任何Spark库或RDD,因此不需要像上面那样创建
SparkSession
。我可以spark-submit
原始Python脚本(不导入Spark模块)在单节点上运行吗? 最佳答案
我们已经在注释中添加了“是”和“否”,因此我将添加“取决于” :)
如果您以spark-submit
模式使用client
python代码,则很有可能会运行,因为它将仅在本地Spark驱动程序进程中执行。
但是,如果您尝试使用--deploy-mode=cluster
,它将因异常"User did not initialize spark context"
或类似的东西而失败,因为如果没有代码创建SparkSession
,则不会在分配的容器中实例化驱动程序。