我的系统有两个NUMA节点和两个连接到NUMA节点1(XEON E5)的GTX 1080 Ti。
使用Keras的multi_gpu_model通过单机多GPU数据并行性训练NN模型。
如何指示TF仅在NUMA节点1上分配内存并执行TF工作器(合并权重)?出于性能原因,我想阻止通过QPI访问内存。
tf.device():
1)tf.device('/ cpu:0')是指物理CPU还是物理核心,还是仅仅是在所有在线物理核心之间移动的“逻辑设备”(线程|池?)?
2)如何影响TF调度程序将逻辑设备映射到一组物理内核?
3)在NUMA系统上分配内存时-TF是否支持在特定节点上分配内存?还是我必须退回到set_mempolicy()/ numactl(LINUX)?
最佳答案
没有答案 ...
我正在使用numactl --cpunodebind=1 --membind=1
-将执行和内存分配绑定到NUMA节点1。
关于python - 固定并在特定NUMA节点上分配 tensorflow ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58162375/