在线性或logistic回归中,如果我们找到一个完全符合训练集的假设函数,那么这应该是一件好事,因为在这种情况下,我们使用了100%的给定信息来预测新信息。
当它被称为是过度健康和说是坏事。
通过简化假设函数,我们可能实际上是在增加噪声而不是减少噪声。
为什么会这样?

最佳答案

当您试图“过于努力”使训练集中的示例符合分类规则时,会发生过度拟合。
这被认为是坏事有两个主要原因:
数据可能有噪音如果过于努力地对100%的例子进行正确的分类,会使噪音变得有价值,并且在忽略这个噪音的情况下给你一个不好的规则——通常会好得多。
记住,分类训练集只是真实数据的一个样本这个解决方案通常比容忍一些错误分类的样本得到的结果更复杂。根据Occam's Razor,您应该选择更简单的解决方案,因此忽略一些样本会更好,
例子:
根据occam的razor,您应该容忍错误分类的样本,并假设它是噪音或无关紧要的,并在该数据集中采用简单的解决方案(绿线):

关于algorithm - 为什么过度拟合会给出错误的假设函数,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10653860/

10-12 22:17