deep-learning - 批次规范是否需要恒定的批次大小？

Batch normalization使用小批量均值和方差对图层输出进行归一化。如果我训练一个具有批量大小(例如100)的网络，但是又想在单次预测(批次大小1)上使用经过训练的网络，我是否会遇到问题？
为了避免这种情况，我是否应该对批处理规范层进行惩罚，使其趋向于身份转换？

最佳答案

不，这样做没有问题，在测试时，批次归一化层只是按比例缩放和移动输入，并带有在训练时学到的因素。

关于deep-learning - 批次规范是否需要恒定的批次大小？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/37091064/