我在Ubuntu 18.04上的12个CPU和2个GPU上运行具有86个进程的mpirun(OpenMPI)。正在运行的应用程序正在训练神经网络。
经过一天左右的训练,迭代速度大大降低。该代码在单线程上运行良好,网络流量(文件读取)在规格范围内,并且CPU和GPU没有过多的负载。
所以我认为问题出在mpirun。
是否有非侵入性工具可用来显示MPI运行的性能?我一直在查看Performance Co-Pilot,但在软件本身中看不到任何MPI配置文件。
最佳答案
Callgrind和kcachegrind可能有用。在这里简要浏览[1]可能也会对您有所帮助。
[1] https://www.open-mpi.org/faq/?category=debugging#parallel-debuggers
关于performance - mpirun性能分析,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55346850/