更改掉落和重量衰减等一些超参数后,我发现必须连续减小我的batch_size才能适应训练,即使使用11GB内存的Tesla K80。我曾经使用32的批次大小进行训练,但是现在即使更改为24的批次大小,在更改我的超参数后也会导致资源耗尽错误。为什么会这样呢?

最佳答案

更改超参数可以更改网络大小的唯一情况是超参数值可以启用/禁用层时。

例如,如果将keep_prob辍学超参数设置为1,则不会创建图层本身,但会返回输入。

权重衰减也会发生同样的情况:如果权重衰减惩罚等于0,则不会将损耗函数的衰减项相加。

在任何其他情况下(例如,对于keep_prob中的]0, 1[),将添加该层并且其大小是恒定的。

问题可能在图形定义中的其他地方。

08-25 01:18