我是finetuning上的图像数据集上使用CaffeTesla K40。使用batch size=47solver_type=SGDbase_lr=0.001lr_policy="step"momentum=0.9gamma=0.1training loss减少,并且test accuracy2%-50%进行100迭代,这是相当不错的。

当使用其他优化器(例如RMSPROPADAMADADELTA)时,即使training loss迭代后test accuracy甚至没有改善,但1000几乎保持不变。

对于RMSPROP,我已更改了相应的参数,如here所述。

对于ADAM,我已更改了相应的参数,如here所述

对于ADADELTA,我已更改了相应的参数,如here所述

有人可以告诉我我做错了吗?

最佳答案

我看到了与pir类似的结果:当给定与SGD使用的相同base_lr时,Adam会发散。当我将base_lr减小到其原始值的1/100时,Adam突然收敛,并给出了良好的结果。

关于machine-learning - RMSprop,Adam,AdaDelta使用Caffe不会提高测试精度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32909986/

10-10 16:13