我在一个slurm集群中工作,同时(在几个输入文件上)运行几个进程,并使用相同的bash脚本。
在作业结束时,进程被终止,这是我得到的错误。

slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.

我想是记忆有问题。但我怎么能了解更多呢?
我没有提供足够的内存吗?或者作为用户,我请求的不仅仅是我可以访问的内容?
有什么建议吗?

最佳答案

这里,oom代表“内存不足”。当Linux内存不足时,它将“OOM杀死”一个进程来保持关键进程的运行。似乎slurmstepd检测到进程被OOM杀死。甲骨文对这种机制有a nice explanation的认识。
如果您请求的内存超过了允许的数量,进程将不会分配给节点,计算也不会启动。看起来您需要请求更多内存。

关于memory - SLURM群集中的错误 - 检测到1个oom-kill事件:如何改进正在运行的作业,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52421068/

10-12 15:33