machine-learning - 为什么门控激活功能(在Wavenet中使用)比ReLU更好用？

我最近一直在阅读Wavenet和PixelCNN论文，他们都提到使用门控激活功能比ReLU更好。但是在两种情况下，他们都没有提供解释。

我曾在其他平台(例如在r/machinelearning上)上询问过，但到目前为止我还没有得到任何答复。可能是他们只是(偶然)尝试了这种替换，结果产生了令人满意的结果？

引用功能:
y = tanh(Wk，f * x)。 σ(Wk，g ∗ x)

卷积的S形和tanh之间的逐元素乘法。

最佳答案

我进行了一些挖掘工作，并与一个 friend 交谈了一些，后者向我指出了多芬等人的论文。 al。关于“带门控卷积网络的语言建模”。在论文的第3部分中，他对这个主题提供了很好的解释:

换句话说，这意味着他们采用了门的概念并将其应用于顺序卷积层，以控制正在传递的信息类型，显然，这比使用ReLU更好。
编辑:但是为什么它会更好，我仍然不知道，如果有人能给我一个甚至遥不可及的直观答案，我将不胜感激，我环顾四周，显然我们仍在基于试错法进行判断。

关于machine-learning - 为什么门控激活功能(在Wavenet中使用)比ReLU更好用？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/56061504/