简介

梯度下降法是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以),在求解机器学习算法的模型参数,梯度下降是最常采用的方法之一,在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解

  • 不是一个机器学习算法
  • 是一种基于搜索的最优化方法
  • 最小化损失函数
  • 最大化一个效用函数(梯度上升法)

模型

$J=\theta ^{2}+b$

  定义了一个损失函数以后,参数 $\theta $ 对应的损失函数 $J$ 的值对应的示例图,需要找到使得损失函数值 $J$ 取得最小值对应的 $\theta $

  • 首先随机取一个 $\theta $,对 $\theta $求导乘 $\eta $,得到一个导数gradient
  • 将之前的 $\theta $ 存为last_theta
  • 将 $\theta $减去$\eta $*gradient得到的值存入 $\theta $
  • 将 $\theta $与last_theta分别代入公式后得到两个函数值相减,如果小于指定的一个极小值,则说明已找到了最小的 $\theta $,否则重复第1个步聚,对 $\theta $ 求导,依次完成,直到差值小于极小值

$\eta $ 超参数的作用

  • $\eta $ 称为学习率也称为步长
  • $\eta $ 的取值影响获得最优解的速度
  • $\eta $ 取值不合适,可能得不到最优解
  • $\eta $ 是梯度下降的一个超参数

η太小,会减慢收敛学习速度

η太大,会导致不收敛

局部最优与全局最优

最优化问题

  就是在复杂环境中遇到的许多可能的决策中,挑选“最好”的决策的科学机器学习中选择最小的参数满足分类与预测的要求

  全局最优:若一项决策和所有解决该问题的决策相比是最优的,对目标函数去最大值还是最小值,损失函数只有一个最优解

  局部最优:不要求在所有决策中是最好的

解决方案

  • 多次运行,随机化初始点
  • 梯度下降法的初始点也是一个超参数

目标

  使 $\sum_{i=1}^{m}(y^{(i)}-\widehat{y}^{(i)})^{2}$ 尽可能小

代码实现

python代码实现

mport numpy as np
import matplotlib.pyplot as plt
plot_x = np.linspace(-1.0,6.0,141)
plot_y = (plot_x-2.5)**2+1
plt.plot(plot_x,plot_y,c='b')
plt.show()
#定一个极小值
epsilon = 1e-8
eta = 0.1
def J(thata):
    return (thata-2.5)**2+1.0
def DJ(thata):
    return 2*(thata-2.5)
thata = 0.0
while True:
    g = DJ(thata)
    last_thata = thata
    thata = thata-g
    if(abs(J(thata)-J(last_thata))<epsilon):
        #注意这里不能小于0,如果两个损失函数的值相减小于一个极值,说明已找到
        break;
print(thata)
print(J(thata))#最后一次的值

查看学习率

theta = 0.0
theta_history = [theta]
while True:
    gradient = dJ(theta)
    last_theta = theta
    theta = theta - eta * gradient
    theta_history.append(theta)

    if(abs(J(theta) - J(last_theta)) < epsilon):
        break

plt.plot(plot_x, J(plot_x))
plt.plot(np.array(theta_history), J(np.array(theta_history)), color="r", marker='+')
plt.show()

函数封装

def gradient_descent(inital_theta,eta,epslion=1e-8):
    theta = inital_theta
    theta_history.append(theta)
    while True:
        g = DJ(theta)
        last_thata = theta
        theta = theta - eta * g
        theta_history.append(theta)
        if (abs(J(theta) - J(last_thata)) < epsilon):
            # 注意这里不能小于0,如果两个损失函数的值相减小于一个极值,说明已找到
            break;
def plot_theta_history():
    plt.plot(plot_x, J(plot_x), c='b')  # 将x数据传入J函数取得y的值
    plt.plot(np.array(theta_history), J(np.array(theta_history)), c='r', marker='+')
    plt.show()
gradient_descent(0.0,eta)
plot_theta_history()

调整学习参数

eta = 0.001
theta_history = []
gradient_descent(0, eta)
plot_theta_history()


eta = 0.8
theta_history = []
gradient_descent(0, eta)
plot_theta_history()


eta = 1.1
theta_history = []
gradient_descent(0, eta)

迭代次数的调整

def gradient_descent(initial_theta, eta, n_iters = 1e4, epsilon=1e-8):

    theta = initial_theta
    i_iter = 0
    theta_history.append(initial_theta)

    while i_iter < n_iters:
        gradient = dJ(theta)
        last_theta = theta
        theta = theta - eta * gradient
        theta_history.append(theta)

        if(abs(J(theta) - J(last_theta)) < epsilon):
            break
        i_iter += 1
    return

多元线性回归中的梯度下降法

01-03 16:46