谁能解释Hugo Larochelle在本 lecture 的第8分钟提出的收敛测试?
最佳答案
这些条件确保了渐近收敛。在这种情况下,我们应该能够无限次地更新近似解。直观地讲,要实现这一点,学习率应始终大于零。第一个条件意味着或暗示学习率始终大于0。
另一方面,除了“无限地更新”我们的近似解决方案外,我们还希望更接近最佳解决方案。为此,学习率应该越来越小。第二个条件意味着alpha参数应单调减少。
这两个条件不仅在SGD中需要,而且在许多其他随机逼近方法中都需要。由于Robbins–Monro algorithm,有时将它们称为Robbins-Monro条件。
关于machine-learning - 使用学习率的SGD收敛测试,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39452651/