GELU是一种常见的激活函数,全称为“Gaussian Error Linear Unit”,其图像与ReLU、ELU对比如下:
文章链接:https://arxiv.org/pdf/1606.08415.pdf
https://pytorch.org/docs/master/generated/torch.nn.GELU.html
公式为:G E L U ( x ) = x ∗ Φ ( x ) GELU(x) = x*\Phi(x)GELU(x)=x∗Φ(x)
其中Φ ( x ) \Phi(x)Φ(x)表示高斯分布的累积概率分布,即在(-∞,x]区间对高斯分布的定积分。
我们可以看一下Φ ( x ) \Phi(x)Φ(x)的函数图像:
一般常见的是均值为0,方差为1的版本。如红色曲线所示。
当方差为无穷大,均值为0的时候,GeLU就等价于ReLU了。GELU可以当作为RELU的一种平滑策略。