在关于神经网络和深度学习的online textbook中,作者从最小化二次成本函数的角度说明了神经网络的基本知识,他说这是均方误差的同义词。 不过,我对他的功能有两点困惑(下面的伪代码)。

MSE≡(1 / 2n)* ∑‖y_true-y_pred‖ ^ 2

  • 不是将平方误差的总和除以训练样本的数量n,而是为什么将其除以2n?这是什么意思?
  • 为什么使用双杠符号而不是括号?这使我认为还有其他计算在进行,例如L2-范数,但未明确显示。我怀疑情况并非如此,该术语旨在表示平方误差的普通旧总和。 super 令人困惑。

  • 您能提供的任何见解都将不胜感激!

    最佳答案

    成本函数乘以0.5的系数并不重要。实际上,您可以将其乘以所需的任何实常数,并且学习将是相同的。它仅用于使成本函数相对于输出的导数将只是$$ y-y_ {t} $$。这在某些应用中很方便,例如反向传播。

    10-07 23:34