我是sparkpyspark的新手。如果有人能解释SparkContext参数的具体作用,我将不胜感激。我如何为python应用程序设置spark_context

最佳答案

请参见:spark_上下文代表您与运行中的spark cluster manager的接口。换句话说,您已经为spark定义了一个或多个运行环境(请参阅安装/初始化文档),详细描述了要运行的节点等。您使用一个配置来启动spark上下文对象,该配置告诉它要使用哪个环境,例如,应用程序nam所有进一步的交互,比如加载数据,都是作为上下文对象的方法发生的。
对于简单的示例和测试,您可以“本地”运行火花簇,并跳过上面的许多细节,例如,

./bin/pyspark --master local[4]

将启动一个上下文已经设置为在自己的CPU上使用四个线程的解释器。
在独立应用程序中,使用sparksubmit运行:
from pyspark import SparkContext
sc = SparkContext("local", "Simple App")

关于python - 为pyspark设置SparkContext,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24996302/

10-11 20:20