当我在多节点系统上使用sbatch启 Action 业时,正在所涉及的节点上启动某些进程。

我如何找到由于sbatch运行而在这些已启动的节点上运行的进程(进程ID)?

我检查了Slurm文档,但没有找到任何显示所涉及进程的命令(例如scontrolsstat)。

这个想法是找到进程ID,然后使用Linux工具调试被``卡住''的进程(即没有输出等),并可能找出该特定进程在做什么。

最佳答案

您正在寻找的是scontrol listpids。从scontrol manpage:



只需SSH到计算节点并运行scontrol listpids即可。它将输出具有PID/JOBID对应关系的表。

[root@node003 ~]# scontrol listpids | column -t
PID     JOBID     STEPID      LOCALID  GLOBALID
269852  68706234  batch       0        0
269998  68706234  batch       -        -
[etc.]

我在这里使用column命令可以更好地对齐列并简化阅读。

10-04 11:28