我正在研究Tensorflow for poets教程。大多数情况下,训练失败并显示错误Nan in summary histogram
。
我对原始数据运行以下命令以进行重新训练:
python -m scripts.retrain
--bottleneck_dir=tf_files/bottlenecks
--model_dir=tf_files/models/
--summaries_dir=tf_files/training_summaries/"${ARCHITECTURE}"
--output_graph=tf_files/retrained_graph.pb
--output_labels=tf_files/retrained_labels.txt
--image_dir=/ml/data/images
此错误也发生在other mentions中。我使用tfdg按照那里的说明进行操作,这给了我更多的了解(请参阅下文)。但是,我仍然被困住了,因为我不知道为什么会发生这种情况,以及在没有TF和神经网络的丰富经验的情况下如何解决该问题。这尤其令人困惑,因为它与100%的教程代码和数据一起发生。
这是tfdg的输出。错误第一次出现:
以及该节点的详细信息:
要查看再培训脚本,您可以找到Google的原始代码here。在我看来,它没有被修改。很抱歉不包含它(字符太多)。
超级参数和结果
有关更多信息:培训使用的学习率值小得离谱(例如,使用0,000001)。但是,这不会导致良好的结果。无论我训练了多少个纪元,性能都保持在较低水平(优化期间可能会停留在局部最小值中)。
最佳答案
我也像在2.7中一样搜索过兼容性,但是它说3.5是具有所有最新tensorflow支持的最佳版本。因此,我使用python 3.5创建了虚拟环境。我认为这就是稳定性问题的原因。