更改掉落和重量衰减等一些超参数后,我发现必须连续减小我的batch_size才能适应训练,即使使用11GB内存的Tesla K80。我曾经使用32的批次大小进行训练,但是现在即使更改为24的批次大小,在更改我的超参数后也会导致资源耗尽错误。为什么会这样呢?
最佳答案
更改超参数可以更改网络大小的唯一情况是超参数值可以启用/禁用层时。
例如,如果将keep_prob
辍学超参数设置为1
,则不会创建图层本身,但会返回输入。
权重衰减也会发生同样的情况:如果权重衰减惩罚等于0
,则不会将损耗函数的衰减项相加。
在任何其他情况下(例如,对于keep_prob
中的]0, 1[
),将添加该层并且其大小是恒定的。
问题可能在图形定义中的其他地方。