python - 迷你批次梯度下降，亚当和历元

我正在上一门有关Python深度学习的课程，并且坚持下面的示例行：

regressor.compile(optimizer = 'adam', loss = 'mean_squared_error')
regressor.fit(X_train, y_train, epochs = 100, batch_size = 32)

根据我知道的定义，
1个时期=遍历所有训练示例一次以进行一次权重更新。

batch_size在优化程序中使用，可将训练示例分成小批。每个小批量的大小为batch_size。

我不熟悉亚当优化，但我相信这是GD或Mini batch GD的变体。梯度下降-具有一大批（所有数据），但有多个时期。迷你批次梯度下降-使用多个迷你批次，但只有1个时期。

那么，代码为什么同时具有多个迷你批处理和多个时期？
这段代码中的纪元与上面的定义是否具有不同的含义？

最佳答案

假设您有3200个示例来训练模型。然后1个历元=经历3200个训练示例，但如果您设置batch_size = 32，则进行100次反向传播。