我是finetuning
上的图像数据集上使用Caffe
的Tesla K40
。使用batch size=47
,solver_type=SGD
,base_lr=0.001
,lr_policy="step"
,momentum=0.9
,gamma=0.1
,training loss
减少,并且test accuracy
从2%-50%
进行100
迭代,这是相当不错的。
当使用其他优化器(例如RMSPROP
,ADAM
和ADADELTA
)时,即使training loss
迭代后test accuracy
甚至没有改善,但1000
几乎保持不变。
对于RMSPROP
,我已更改了相应的参数,如here所述。
对于ADAM
,我已更改了相应的参数,如here所述
对于ADADELTA
,我已更改了相应的参数,如here所述
有人可以告诉我我做错了吗?
最佳答案
我看到了与pir类似的结果:当给定与SGD使用的相同base_lr时,Adam会发散。当我将base_lr减小到其原始值的1/100时,Adam突然收敛,并给出了良好的结果。
关于machine-learning - RMSprop,Adam,AdaDelta使用Caffe不会提高测试精度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32909986/