Batch normalization使用小批量均值和方差对图层输出进行归一化。如果我训练一个具有批量大小(例如100)的网络,但是又想在单次预测(批次大小1)上使用经过训练的网络,我是否会遇到问题?
为了避免这种情况,我是否应该对批处理规范层进行惩罚,使其趋向于身份转换?
最佳答案
不,这样做没有问题,在测试时,批次归一化层只是按比例缩放和移动输入,并带有在训练时学到的因素。
关于deep-learning - 批次规范是否需要恒定的批次大小?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37091064/