我想知道一些参数来加快YARN群集上的Spark作业。
我有以下Spark / YARN配置,但对执行速度不满意。我有很多未使用的vcore和内存。
Spark配置:
- spark.yarn.am.cores = 2
- spark.executor.memory = 5g
- spark.executor.cores = 8
yarn 配置:
- yarn.nodemanager.resource.memory-mb = 31744
- yarn.nodemanager.resource.cpu-vcores = 15
- yarn.scheduler.maximum-allocation-mb = 31744
根据图片,
节点3和5上的
此外,我希望能够在集群中的每个节点上启动更多容器。
帮助非常感谢。
最佳答案
添加这个spark conf,就可以了:
spark.executor.instances = 6
关于hadoop - Hadoop YARN集群性能调优,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33603518/