当我启动 pyspark 时,会自动生成一个 SparkSession 并作为“spark”提供。我想打印/查看 spark session 的详细信息,但在访问这些参数时遇到很多困难。

Pyspark 自动创建一个 SparkSession。这可以使用以下代码手动创建:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("PythonSQL")\
        .config("spark.some.config.option", "some-value")\
        .getOrCreate()

我想查看/打印 appname 和 config 选项。我希望看到这些的原因是我遇到的另一个问题,这可能会有所启发。

最佳答案

可以使用 SparkContext 访问应用程序名称:

spark.sparkContext.appName

可以使用 RuntimeConfig 访问配置:
from py4j.protocol import Py4JError

try:
   spark.conf.get("some.conf")
except Py4JError as e:
   pass

关于python - 打印 SparkSession 配置选项,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39417743/

10-12 19:42