我正在使用由slurm管理的集群来运行某些 yarn / Hadoop基准测试。为此,我在slurm分配的节点上启动hadoop服务器,然后在它们上运行基准测试。我意识到这不是运行生产hadoop集群的预期方式,但必须这样做。

为此,我首先编写了一个使用srun运行的脚本,例如srun -N 4 setup.sh。该脚本将写入配置文件,并在分配的节点上启动服务器,编号最低的计算机充当主服务器。所有这些都可以,并且我能够运行应用程序。

但是,由于我想启动一次服务器,然后在它们上启动多个应用程序,而无需在一开始就重新启动/编码所有内容,因此我想改用salloc。我以为这是先运行salloc -N 4然后再运行srun setup.sh的简单情况。不幸的是,由于不同的服务器无法相互通信,因此无法正常工作。谁能向我解释使用srun和先使用salloc再使用srun之间的操作环境有何不同?

非常感谢

丹尼尔

最佳答案

slurm-users mailing list:

09-13 14:11