分类器网络的隐藏层使用 sigmoid 或其他激活函数来引入非线性并对数据进行归一化,但最后一层是否将 sigmoid 与 softmax 结合使用?

我觉得这无关紧要,网络会以任何一种方式进行训练——但是否应该单独使用 softmax 层?还是应该先应用 sigmoid 函数?

最佳答案

一般来说,在 softmax 输出层之前额外的 sigmoid 激活是没有意义的。由于 sigmoid 函数是 a partial case of softmax ,它只会连续两次将值压缩到 [0, 1] 间隔中,这将提供几乎均匀的输出分布。当然,您可以通过它进行传播,但效率会低得多。

顺便说一句,如果您选择不使用 ReLu,则 tanh 绝对是 a better activation function 而不是 sigmoid。

关于neural-network - 分类器神经网络的最后一层是否同时使用 sigmoid 和 softmax?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46608830/

10-12 19:55