machine-learning - 为什么将tanh用于MLP的激活功能？

我亲自研究了神经网络理论，并提出了一些问题。

在许多书籍和引用文献中，对于隐藏层的激活功能，使用了超切线功能。

书中提出了一个非常简单的理由，即tanh函数的线性组合可以描述具有给定误差的几乎所有形状的函数。

但是，有一个问题。

这是使用tanh函数的真实原因吗？

如果是，那是使用tanh函数的唯一原因吗？

如果是

，tanh函数是唯一可以做到这一点的函数吗？

如果不是，真正的原因是什么？..

我在这里存货，请继续思考...请帮助我摆脱这种心理陷阱？

最佳答案

实际上，tanh和逻辑函数都可以使用。这个想法是您可以将tanh和logistic的任何实数([-Inf，Inf])分别映射到[-1 1]或[0 1]之间的数字。以此方式，可以证明，这些函数的组合可以近似任何非线性函数。
现在，相对于逻辑函数，对tanh的偏爱在于，第一个相对于0是对称的，而第二个相对于0是对称的。这使得第二层更容易在后面的层中饱和，使训练更加困难。

关于machine-learning - 为什么将tanh用于MLP的激活功能？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/24282121/