经过几天的试用,我将在这里发布。

我有一个简单的数据集,例如:

data = [
        [[1,2], [3,4], [5,6], [7,8], [9,10]],
        [[10, 20], [30, 40], [50, 60], [70, 80], [90, 100]],
        [[0.1, 0.2], [0.3, 0.4], [0.5, 0.6], [0.7, 0.8], [0.9, 0.10]],
        [[0.01, 0.02], [0.03, 0.04], [0.05, 0.06], [0.07, 0.08], [0.09, 0.010]],
        [[11, 12], [13, 14], [15, 16], [17, 18], [19, 20]]
       ]


每个输入与另一个完全不同。

每个输入对应一个不同的类:

classes = ['A', 'B', 'C', 'D', 'E']


我正在训练LSTM,如下所示:

# Build Model
model = Sequential()

model.add(LSTM(units=units, activation='tanh',
               batch_input_shape=(1, None, n_features),
               dropout=dropout, recurrent_dropout=recurrent_dropout,
               return_sequences=return_sequences, stateful=stateful))

model.add(Dropout(dropout_))

self.model.add(Dense(n_classes, activation='softmax'))

self.model.compile(loss='categorical_crossentropy',
                   optimizer=optimizer, metrics=['accuracy'])

# Train
model.fit(x=np.array(data), y=np.array(classes), batch_size=1)


我可以在训练集上达到100%的准确性。但是,如果我尝试根据子序列进行预测,那么就很难知道子序列属于哪个类别!如:

[[1,2], [3,4]]
[[10, 20], [30, 40], [50, 60]]
[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]
[[0.01, 0.02], [0.03, 0.04]]
[[11, 12], [13, 14]]


为上述应用不同的参数:unitsdropout ... etc。要修复过度拟合(如果有的话),将无法正常工作。



摘要:

对子序列的预测永远不会超过60%的准确性,无论训练的时期数,参数调整以及所使用的优化器和学习率如何。

我想从此转移到更大的数据集,但我无法首先完成这项工作!

非常感谢任何提示。

最佳答案

您应该首先将数据集拆分为训练和验证(开发)数据集。也许还要进行测试拆分。然后在验证数据集上测量性能。

您还可以使用子序列示例扩充数据集,并对这些示例进行训练/验证。

关于machine-learning - LSTM对子序列的预测失败,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58203022/

10-12 19:33