我最近一直在阅读Wavenet和PixelCNN论文,他们都提到使用门控激活功能比ReLU更好。但是在两种情况下,他们都没有提供解释。
我曾在其他平台(例如在r/machinelearning上)上询问过,但到目前为止我还没有得到任何答复。可能是他们只是(偶然)尝试了这种替换,结果产生了令人满意的结果?
引用功能:
y = tanh(Wk,f * x)。 σ(Wk,g ∗ x)
卷积的S形和tanh之间的逐元素乘法。
最佳答案
我进行了一些挖掘工作,并与一个 friend 交谈了一些,后者向我指出了多芬等人的论文。 al。关于“带门控卷积网络的语言建模”。在论文的第3部分中,他对这个主题提供了很好的解释:
换句话说,这意味着他们采用了门的概念并将其应用于顺序卷积层,以控制正在传递的信息类型,显然,这比使用ReLU更好。
编辑:但是为什么它会更好,我仍然不知道,如果有人能给我一个甚至遥不可及的直观答案,我将不胜感激,我环顾四周,显然我们仍在基于试错法进行判断。
关于machine-learning - 为什么门控激活功能(在Wavenet中使用)比ReLU更好用?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56061504/