1. 过拟合和欠拟合

15. 过拟合和欠拟合-LMLPHP
当数据比较简单时,使用模型容量低的模型更好,否则使用高的会出现过拟合。如果是复杂的数据用到简单模型上会出现欠拟合,用到复杂模型上是正常的。

2. 模型容量

模型容量:拟合各种函数的能力

  • 低容量的模型难以拟合训练数据
  • 高容量的模型可以记住所有的训练数据

3. 模型容量的影响

15. 过拟合和欠拟合-LMLPHP

4. 估计模型容量

  • 难以在不同种类算法之间比较

    • 例如树模型和神经网络
  • 给定一个模型种类,将有两个主要因素

    • 参数的个数
    • 参数值的选择范围

15. 过拟合和欠拟合-LMLPHP

5. VC维

  • 统计学习理论的一个核心思想
  • 对于一个分类模型,VC等价于一个最大的数据集的大小,不管如何给定标号,都存在一个模型对它进行完美分类

15. 过拟合和欠拟合-LMLPHP

6. VC维的用处

  • 提供为什么一个模型好的理论依据

    • 它可以衡量训练误差和泛化误差之间的间隔
  • 但在深度学习中很少使用

    • 衡量不是很准确
    • 计算深度学习模型的VC维很困难

7. 数据复杂度

  • 多个重要因素
    • 样本个数
    • 每个样本的元素个数
    • 时间,空间结构
    • 多样性

8. 总结

  • 模型容量需要匹配数据复杂度,否则可能导致欠拟合和过拟合
  • 统计机器学习提供数学工具来衡量模型复杂度
  • 实际中一般靠观察训练误差和验证误差
12-10 06:36