结合使用spark-submit
命令和--master yarn --deploy-mode cluster
会导致更大的调度程序延迟,而不是使用--master yarn --deploy-mode client
。
任务执行结果截图:
这主要涉及在RDD上使用collect
操作的作业。
以client
模式启动的spark应用程序大约需要3-4分钟,而cluster
模式则需要6-7分钟。每个任务在阶段中的大小小于100 KB。群集具有8个数据节点并运行Cloudera Manager 5.9.0
最佳答案
针对这种特殊情况的解决方案。该问题是由群集基础结构中的以太网电缆断开引起的。更换后,时间大大减少了。
关于apache-spark - 使用部署模式集群的Apache Spark任务中的大型调度程序延迟,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40848045/