前言
所谓深度神经网络的优化算法,即用来更新神经网络参数,并使损失函数最小化的算法。优化算法对于深度学习非常重要,如果说网络参数初始化(模型迭代的初始点)能够决定模型是否收敛,那优化算法的性能则直接影响模型的训练效率。
了解不同优化算法的原理及其超参数的作用将使我们更有效的调整优化器的超参数,从而提高模型的性能。
本文的优化算法特指: 寻找神经网络上的一组参数 $\theta $,它能显著地降低损失函数 \(J(\theta )\),该损失函数通常包括整个训练集上的性能评估和额外的正则化项。
一,梯度下降优化算法
1.1,随机梯度下降 SGD
梯度下降法是最基本的一类优化器,目前主要分为三种梯度下降法:标准梯度下降法(GD, Gradient Descent),随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent)。
深度学习项目中的 SGD
优化一般默认指批量梯度下降法。其算法描述如下:
输入和超参数: \(\eta\) 全局学习率
计算梯度:\(g_t = \nabla_\theta J(\theta_{t-1})\)
更新参数:\(\theta_t = \theta_{t-1} - \eta \cdot g_t\)
SGD 优化算法是最经典的神经网络优化方法,虽然收敛速度慢,但是收敛效果比较稳定。
下图1展现了随机梯度下降算法的梯度搜索轨迹示意图。可以看出由于梯度的随机性质,梯度搜索轨迹要很嘈杂(动荡现象)。
因此,在实际应用中,随机梯度下降 SGD 法必须和动态学习率方法结合起来使用,否则使用固定学习率 + SGD的组合会使得模型收敛过程变得更复杂。
1.2,动量 Momentum
虽然随机梯度下降仍然是非常受欢迎的优化方法,但其学习过程有时会很慢且其梯度更新方向完全依赖于当前 batch
样本数据计算出的梯度,因而十分不稳定,因为数据可能有噪音。
受启发于物理学研究领域研究,基于动量 Momentum (Polyak, 1964) 的 SGD 算法用于改善参数更新时可能产生的振荡现象。动量算法旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。两种算法效果对比如下图 2所示。
Momentum 算法的通俗理解就是,其模拟了物体运动时的惯性,即更新参数的时候会同时结合过去以及当前 batch 的梯度。算法在更新的时候会一定程度上保留之前更新的方向,同时利用当前 batch 的梯度微调最终的更新方向。这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力。
下图3展现了动量算法的前进方向。
第一次的梯度更新完毕后,会记录 \(v1\) 的动量值。在“求梯度点”进行第二次梯度检查时,得到2号方向,与 \(v1\) 的动量组合后,最终的更新为 2' 方向。这样一来,由于有 \(v1\) 的存在,会迫使梯度更新方向具备“惯性”,从而可以减小随机样本造成的震荡。
Momentum 算法描述如下:
1,输入和参数:
- \(\eta\) - 全局学习率
- \(\alpha\) - 动量参数,一般取值为 0.5, 0.9, 0.99,取
0
,则等效于常规的随机梯度下降法,其控制动量信息对整体梯度更新的影响程度。 - \(v_t\) - 当前时刻的动量,初值为 0。
2,算法计算过程:
计算梯度:\(g_t = \nabla_\theta J(\theta_{t-1})\)
计算速度更新:\(v_t = \alpha \cdot v_{t-1} + \eta \cdot g_t\) (公式1)
更新参数:\(\theta_t = \theta_{t-1} - v_t\) (公式2)
通过推导参数更新迭代公式,更容易理解算法,根据算法公式(1)(2),以\(W\)参数为例,有:
- \(v_0 = 0\)
- \(dW_0 = \nabla J(w)\)
- \(v_1 = \alpha v_0 + \eta \cdot dW_0 = \eta \cdot dW_0\)
- \(W_1 = W_0 - v_1=W_0 - \eta \cdot dW_0\)
- \(dW_1 = \nabla J(w)\)
- \(v_2 = \alpha v_1 + \eta dW_1\)
- \(W_2 = W_1 - v_2 = W_1 - (\alpha v_1 +\eta dW_1) = W_1 - \alpha \cdot \eta \cdot dW_0 - \eta \cdot dW_1\)
- \(dW_2 = \nabla J(w)\)
- \(v_3=\alpha v_2 + \eta dW_2\)
- \(W_3 = W_2 - v_3=W_2-(\alpha v_2 + \eta dW_2) = W_2 - \alpha^2 \eta dW_0 - \alpha \eta dW_1 - \eta dW_2\)
可以看出与普通 SGD 的算法 \(W_3 = W_2 - \eta dW_2\) 相比,动量法不但每次要减去当前梯度,还要减去历史梯度\(W_0, W_1\) 乘以一个不断减弱的因子\(\alpha\)、\(\alpha^2\),因为\(\alpha\)小于1,所以\(\alpha^2\)比\(\alpha\)小,\(\alpha^3\)比\(\alpha^2\)小。这种方式的学名叫做指数加权平均。
在实际模型训练中,SGD 和动量法的比较如下表所示。
从上表的对比可以看出,同一个深度模型, 普通随机梯度下降法的曲线震荡很严重,且经过 epoch=10000 次也没有到达预定 0.001 的损失值;但动量算法经过 2000 个 epoch 就迭代结束。
1.3,Nesterov 动量
受 Nesterov 加速梯度算法 (Nesterov, 1983, 2004) 启发,Sutskever et al. (2013) 提出了动量算法的一个变种,Nesterov 动量随机下降法(NAG
,英文全称是 Nesterov Accelerated Gradient,或者叫做 Nesterov Momentum 。
Nesterov 动量随机梯度下降方法是在上述动量梯度下降法更新梯度时加入对当前梯度的校正,简单解释就是往标准动量方法中添加了一个校正因子。
NAG 算法描述如下:
1,输入和参数:
- \(\eta\) - 全局学习率
- \(\alpha\) - 动量参数,缺省取值 0.9
- \(v\) - 动量,初始值为0
2,算法计算过程:
- 参数临时更新:\(\hat \theta = \theta_{t-1} - \alpha \cdot v_{t-1}\)
- 网络前向传播计算:\(f(\hat \theta)\)
- 计算梯度:\(g_t = \nabla_{\hat\theta} J(\hat \theta)\)
- 计算速度更新:\(v_t = \alpha \cdot v_{t-1} + \eta \cdot g_t\)
- 更新参数:\(\theta_t = \theta_{t-1} - v_t\)
1.4,代码实践
Pytorch 框架中把普通 SGD、Momentum 算法和 Nesterov Momentum 算法的实现结合在一起了,对应的类是 torch.optim.SGD
。注意,其更新公式与其他框架略有不同,其中 \(p\)、\(g\)、\(v\)、\(\mu\) 表示分别是参数、梯度、速度和动量。