decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2


我对上面的评论措辞感到困惑,他们在上面谈论RMSProp优化器的“泄漏”平方和。到目前为止,我已经发现该特定行是从Andrej Karpathy的Deep Reinforcement Learning: Pong from Pixels复制粘贴而来的,而RMSProp是unpublished optimizer proposed by Hinton in one of his Coursera Classes。从link 2中查看RMSProp的数学公式,很难弄清楚其中的任何“漏泄”。

会有人碰巧知道为什么这样描述RMSProp吗?

最佳答案

RMsprop保持平方梯度的指数衰减平均值。 “泄漏”的措辞(但不幸的是)是指这样一个事实,即先前的估计有多少“泄漏”到了当前估计,因为

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t
            \_______________/   \________/
               "leaking"         new data

10-05 21:25