我正在使用由slurm管理的集群来运行某些 yarn / Hadoop基准测试。为此,我在slurm分配的节点上启动hadoop服务器,然后在它们上运行基准测试。我意识到这不是运行生产hadoop集群的预期方式,但必须这样做。
为此,我首先编写了一个使用srun运行的脚本,例如srun -N 4 setup.sh
。该脚本将写入配置文件,并在分配的节点上启动服务器,编号最低的计算机充当主服务器。所有这些都可以,并且我能够运行应用程序。
但是,由于我想启动一次服务器,然后在它们上启动多个应用程序,而无需在一开始就重新启动/编码所有内容,因此我想改用salloc
。我以为这是先运行salloc -N 4
然后再运行srun setup.sh
的简单情况。不幸的是,由于不同的服务器无法相互通信,因此无法正常工作。谁能向我解释使用srun
和先使用salloc
再使用srun
之间的操作环境有何不同?
非常感谢
丹尼尔
最佳答案