如果层中prelu的权重接近1,而在另一些层中prelu的权重接近0,则对prelu权重的解释是什么?

之前没有太多文献资料,任何帮助都将真正有用!

最佳答案

PRelu公式为this

machine-learning - 前体重量的解释-LMLPHP

如您所见,如果得知a大约为0,则f(x)几乎等于普通relu,并且来自负激活的梯度不会改变网络。简而言之,网络不会“希望”在任何方向上调节非活动神经元。实际上,这还意味着您可以通过在此层中使用relu来加快培训速度。非线性也很重要。

相反,当a大约为1时,f(x)几乎为x,即没有非线性。这意味着该层可能是多余的,并且网络拥有足够的自由来在没有该边界的情况下做出决策边界。

09-17 12:44