machine-learning - 了解使用梯度下降的wrt Logistic回归代码

我正在关注Siraj Raval使用梯度下降进行逻辑回归的视频：

1）链接到更长的视频：
https://www.youtube.com/watch?v=XdM6ER7zTLk&t=2686s

2）链接到较短的视频：
https://www.youtube.com/watch?v=xRJCOz3AfYY&list=PL2-dafEMk2A7mu0bSksCGMJEmeddU_H4D

在视频中，他谈到了使用梯度下降来减少一定次数的迭代误差，以便函数收敛（斜率变为零）。
他还通过代码说明了该过程。以下是代码中的两个主要功能：

def step_gradient(b_current, m_current, points, learningRate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
        m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
    new_b = b_current - (learningRate * b_gradient)
    new_m = m_current - (learningRate * m_gradient)
    return [new_b, new_m]

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
    b = starting_b
    m = starting_m
    for i in range(num_iterations):
        b, m = step_gradient(b, m, array(points), learning_rate)
    return [b, m]

#The above functions are called below:
    learning_rate = 0.0001
    initial_b = 0 # initial y-intercept guess
    initial_m = 0 # initial slope guess
    num_iterations = 1000
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
# code taken from Siraj Raval's github page

为什么b＆m的值在所有迭代中都持续更新？经过一定数量的迭代后，当我们找到给定斜率= 0的b＆m的值时，该函数将收敛。

那么，为什么在那之后我们继续迭代并继续更新b＆m？
这样，我们是否会失去“正确的” b＆m值？如果我们在收敛后继续更新值，学习率将如何帮助收敛过程？因此，为什么不检查收敛性，这实际上如何工作？

最佳答案

实际上，很可能您将无法精确地达到斜率0。想想你的损失功能就像一个碗。如果您的学习率太高，则有可能超出碗的最低点。相反，如果学习率太低，您的学习将变得太慢，并且在所有迭代完成之前都不会达到最低点。

这就是为什么在机器学习中，学习率是需要调整的重要超参数的原因。

关于machine-learning - 了解使用梯度下降的wrt Logistic回归代码，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/46177764/