当我在多节点系统上使用sbatch
启 Action 业时,正在所涉及的节点上启动某些进程。
我如何找到由于sbatch
运行而在这些已启动的节点上运行的进程(进程ID)?
我检查了Slurm文档,但没有找到任何显示所涉及进程的命令(例如scontrol
或sstat
)。
这个想法是找到进程ID,然后使用Linux工具调试被``卡住''的进程(即没有输出等),并可能找出该特定进程在做什么。
最佳答案
您正在寻找的是scontrol listpids
。从scontrol manpage:
只需SSH到计算节点并运行scontrol listpids
即可。它将输出具有PID/JOBID对应关系的表。
[root@node003 ~]# scontrol listpids | column -t
PID JOBID STEPID LOCALID GLOBALID
269852 68706234 batch 0 0
269998 68706234 batch - -
[etc.]
我在这里使用
column
命令可以更好地对齐列并简化阅读。