machine-learning - TensorFlow:改变超参数(例如丢失概率)是否会增加训练所需的GPU内存？

更改掉落和重量衰减等一些超参数后，我发现必须连续减小我的batch_size才能适应训练，即使使用11GB内存的Tesla K80。我曾经使用32的批次大小进行训练，但是现在即使更改为24的批次大小，在更改我的超参数后也会导致资源耗尽错误。为什么会这样呢？

最佳答案

更改超参数可以更改网络大小的唯一情况是超参数值可以启用/禁用层时。

例如，如果将keep_prob辍学超参数设置为1，则不会创建图层本身，但会返回输入。

权重衰减也会发生同样的情况：如果权重衰减惩罚等于0，则不会将损耗函数的衰减项相加。

在任何其他情况下（例如，对于keep_prob中的]0, 1[），将添加该层并且其大小是恒定的。

问题可能在图形定义中的其他地方。