我正在上一门有关Python深度学习的课程,并且坚持下面的示例行:
regressor.compile(optimizer = 'adam', loss = 'mean_squared_error')
regressor.fit(X_train, y_train, epochs = 100, batch_size = 32)
根据我知道的定义,
1个时期=遍历所有训练示例一次以进行一次权重更新。
batch_size
在优化程序中使用,可将训练示例分成小批。每个小批量的大小为batch_size
。我不熟悉亚当优化,但我相信这是GD或Mini batch GD的变体。梯度下降-具有一大批(所有数据),但有多个时期。迷你批次梯度下降-使用多个迷你批次,但只有1个时期。
那么,代码为什么同时具有多个迷你批处理和多个时期?
这段代码中的纪元与上面的定义是否具有不同的含义?
最佳答案
假设您有3200个示例来训练模型。然后1个历元=经历3200个训练示例,但如果您设置batch_size = 32,则进行100次反向传播。