我在Ubuntu 18.04上的12个CPU和2个GPU上运行具有86个进程的mpirun(OpenMPI)。正在运行的应用程序正在训练神经网络。

经过一天左右的训练,迭代速度大大降低。该代码在单线程上运行良好,网络流量(文件读取)在规格范围内,并且CPU和GPU没有过多的负载。

所以我认为问题出在mpirun。

是否有非侵入性工具可用来显示MPI运行的性能?我一直在查看Performance Co-Pilot,但在软件本身中看不到任何MPI配置文件。

最佳答案

Callgrind和kcachegrind可能有用。在这里简要浏览[1]可能也会对您有所帮助。

[1] https://www.open-mpi.org/faq/?category=debugging#parallel-debuggers

关于performance - mpirun性能分析,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55346850/

10-10 04:20