我是Linux新手,最近开始使用我们大学的超级计算机,我需要在自己分配的空间上安装我的程序(GAMESS Quantum Chemistry Software)。我已经在“sockets”下成功地安装并运行了它,但实际上我需要在“mpi”下运行它(否则使用超级计算机的优势将很小)。
系统设置:
操作系统:Linux64、Redhat、intel
MPI:impi公司
编译器:ifort
模块:slurm、intel/intel-15.0.1、intel/impi-15.0.1
此软件运行“rungms”,并接收如下参数:
rungms[文件名][版本][CPU计数](例如:./rungms Opt 00 4)
这是我的bash文件(我觉得这是我问题的罪魁祸首!):

#!/bin/bash

#Based off of Monte's Original Script for Torque:
#https://gist.github.com/mlunacek/6306340#file-matlab_example-pbs

#These are SBATCH directives specifying name of file, queue, the
#Quality of Service, wall time, Node Count, #of CPUS, and the
#destination output file (which appends node hostname and JobID)

#SBATCH -J OptMPI
#SBATCH --qos janus-debug
#SBATCH -t 00-00:10:00
#SBATCH -N2
#SBATCH --ntasks-per-node=1
#SBATCH -o output-OptMPI-%N-JobID-%j

#NOTE: This Module Will Be Replaced With Slurm Specific:
module load intel/impi-15.0.1

mpirun /projects/augenda/gamess/rungms Opt 00 2 > OptMPI.out

如前所述,程序是为mpi(而不是“sockets”)编译的。
我的问题是运行run sbatch Opt.sh时,收到以下错误:
srun:错误:来自任务1的PMK-KVS-u Barrier重复请求
当我更改-N号码时,有时我会收到错误的提示(4!=2个
).
对于奇数N,我收到一个错误,说它需要偶数个进程。
我错过了什么?
Here is the code from our super-computer website as a bash file example

最佳答案

Slurm工作负载管理器有几种调用Intel MPI进程的方法。很可能,您所要做的只是在您的案例中使用srun而不是mpirun。如果仍然存在错误,请参阅here以了解调用英特尔MPI作业的其他方法;这取决于HPC管理员如何配置系统。

09-10 06:37
查看更多