k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1

theta1 := theta1 - k

在安德鲁的课程中,他说阿尔法是学习率。如果导数是正数,我们减去alpha * k,如果负数,我们加它。为什么我们需要减去此alpha * partial_derivative ( J (theta1) ) w.r.t theta1而不是alpha * just the sign of derivative

那里的乘法有什么需要?谢谢。

最佳答案

我们需要减小k的值-步长值,同时使之最小。众所周知,当我们达到最小值时,导数也将变为零。因此,我们将alpha与导数相乘,以生成一个逐步趋近于零的步进值,同时达到最小值。

关于machine-learning - 梯度下降-步长值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41779707/

10-12 21:33