在StarCluster / SGE集群上qsub作业时,是否有一种简单的方法来确保每个节点一次最多接收一个作业?我遇到的问题是多个作业最终在同一节点上导致内存不足(OOM)问题。

我尝试使用-l cpu=8,但我认为这并不检查包装盒本身上的USED核数。

我也尝试了-l slots=8,但是我得到了:

Unable to run job: "job" denied: use parallel environments instead of requesting slots explicitly.

最佳答案

在您的配置文件(.starcluster / config)中添加以下部分:

[plugin sge]
setup_class = starcluster.plugins.sge.SGEPlugin
slots_per_host = 1

10-04 21:52