我正在使用LSTM和tensorflow的翻译模型训练会话代理。我使用分批训练,因此在每个纪元开始之后,训练数据的混乱程度明显下降。可以用我批量读取数据的方式来解释这一下降,因为我保证训练数据中的每个训练对在每个时期都被完全处理一次。当一个新纪元开始时,模型在先前纪元中所做的改进将在再次遇到训练数据时显示其利润,表示为图中的下降。其他批量方法(例如tensorflow转换模型中使用的方法)将不会导致相同的行为,因为它们的方法是将整个训练数据加载到内存中并从中随机选择样本。
步骤,困惑
330000,19.36
340000,19.20
350000,17.79
360000,17.79
370000,17.93
380000,17.98
390000,18.05
400000,18.10
410000,18.14
420000,18.07
430000,16.48
440000,16.75
(从困惑中切出的一小部分表示在350000和430000处出现了下降。在下降之间,困惑度略有上升)
但是,我的问题是关于下降之后的趋势。从图中可以明显看出,困惑度在逐渐上升(对于步骤350000之后的每个时期),直到下一个下降为止。有人可以给出答案或理论来解释为什么会这样吗?
最佳答案
这将是过度拟合的典型情况。
关于machine-learning - 每次下降之间的困惑度计算都会上升,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44343718/