我正在尝试在大数据集上构建一个简单的多层感知器模型,但是我得到的损失值为nan。奇怪的是:在第一个训练步骤之后,损失值不是nan,而是约46(这很低。当我运行逻辑回归模型时,第一个损失值约为3600)。但是,紧接着,损失值一直是零。我也使用tf.print尝试对其进行调试。

该模型的目标是预测〜4500个不同的类别-因此这是一个分类问题。使用tf.print时,我看到在第一步训练之后(或通过MLP前馈),从最后一个完全连接的层得出的预测似乎是正确的(所有数字在1到4500之间)。但是,之后,最后一个完全连接的层的输出将变为全0或其他常数(0 0 0 0 0)。

有关我的模型的一些信息:


3层模型。所有完全连接的层。
批量为1000
.001的学习率(我也尝试过.1和.01,但没有改变)
使用CrossEntropyLoss(我确实添加了一个epsilon值来防止log0)
使用AdamOptimizer
学习率衰减为0.95


该模型的确切代码如下:(我正在使用TF-Slim库)

input_layer = slim.fully_connected(model_input, 5000, activation_fn=tf.nn.relu)
hidden_layer = slim.fully_connected(input_layer, 5000, activation_fn=tf.nn.relu)
output = slim.fully_connected(hidden_layer, vocab_size, activation_fn=tf.nn.relu)
output = tf.Print(output, [tf.argmax(output, 1)], 'out = ', summarize = 20, first_n = 10)
return {"predictions": output}


任何帮助将不胜感激!非常感谢!

最佳答案

无法运作的两个(可能更多)原因:


您跳过或不适当地应用了功能缩放
输入和输出。因此,数据可能难以处理
用于Tensorflow。
使用不连续的功能ReLu可能会引起问题。尝试使用其他激活功能,例如tanh或Sigmoid。

关于python - Tensorflow神经网络损失值NaN,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44064859/

10-11 14:22