我正在构建普通的FNN,并希望在训练后评估我的模型。我想知道在评估测试集上的模型时batch_size有什么影响。当然,这与训练有关,因为它在计算下一个梯度之前确定要馈送到网络的样本数。同样清楚的是,在预测(有状态的)RNN的值时可能需要它。但是我不清楚在评估模型(尤其是FNN)时为什么需要它。此外,当我在相同的测试集上评估模型时,得到的值会略有不同,但批次大小不同。考虑以下玩具示例:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.optimizers import SGD
# function to be learned
def f(x):
return x[0] + x[1] + x[2]
# sample training and test points on a rectangular grid
x_train = np.random.uniform(low = -10, high = 10, size = (50,3))
y_train = np.apply_along_axis(f, 1, x_train).reshape(-1,1)
x_test = np.random.uniform(low = -10, high = 10, size = (50,3))
y_test = np.apply_along_axis(f, 1, x_test).reshape(-1,1)
model = Sequential()
model.add(Dense(20, input_dim = 3, activation = 'tanh'))
model.add(Dense(1))
sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='mse',
optimizer=sgd)
model.fit(x_train, y_train, batch_size = 10, epochs = 30, verbose = 0)
model.evaluate(x_test, y_test, batch_size = 10)
model.evaluate(x_test, y_test, batch_size = 20)
model.evaluate(x_test, y_test, batch_size = 30)
model.evaluate(x_test, y_test, batch_size = 40)
model.evaluate(x_test, y_test, batch_size = 50)
这些值非常相似,但是却有所不同。这是哪里来的?以下内容是否总是正确的?
from sklear.metrics import mean_squared_error as mse
0 == model.evaluate(x_test, y_test) - mse(model.predict(x_test), y_test)
最佳答案
不,它们不必相同。如果将浮点数学与并行性相结合,则不会得到可重复的结果,因为(a + b)+ c与a +(b + c)不同。
Model的评估功能具有批处理大小,目的是为了加快评估速度,因为网络可以一次处理多个样本,而使用GPU,则评估速度更快。我认为减少此影响的唯一方法是将batch_size设置为一个。