neural-network - 用于训练神经网络的MSE成本函数

在关于神经网络和深度学习的online textbook中，作者从最小化二次成本函数的角度说明了神经网络的基本知识，他说这是均方误差的同义词。 不过，我对他的功能有两点困惑(下面的伪代码)。

MSE≡(1 / 2n)* ∑‖y_true-y_pred‖ ^ 2

不是将平方误差的总和除以训练样本的数量n，而是为什么将其除以2n？这是什么意思？

为什么使用双杠符号而不是括号？这使我认为还有其他计算在进行，例如L2-范数，但未明确显示。我怀疑情况并非如此，该术语旨在表示平方误差的普通旧总和。 super 令人困惑。

您能提供的任何见解都将不胜感激!

最佳答案

成本函数乘以0.5的系数并不重要。实际上，您可以将其乘以所需的任何实常数，并且学习将是相同的。它仅用于使成本函数相对于输出的导数将只是$$ y-y_ {t} $$。这在某些应用中很方便，例如反向传播。