1. 过拟合和欠拟合
当数据比较简单时,使用模型容量低的模型更好,否则使用高的会出现过拟合。如果是复杂的数据用到简单模型上会出现欠拟合,用到复杂模型上是正常的。
2. 模型容量
模型容量:拟合各种函数的能力
- 低容量的模型难以拟合训练数据
- 高容量的模型可以记住所有的训练数据
3. 模型容量的影响
4. 估计模型容量
-
难以在不同种类算法之间比较
- 例如树模型和神经网络
-
给定一个模型种类,将有两个主要因素
- 参数的个数
- 参数值的选择范围
5. VC维
- 统计学习理论的一个核心思想
- 对于一个分类模型,VC等价于一个最大的数据集的大小,不管如何给定标号,都存在一个模型对它进行完美分类
6. VC维的用处
-
提供为什么一个模型好的理论依据
- 它可以衡量训练误差和泛化误差之间的间隔
-
但在深度学习中很少使用
- 衡量不是很准确
- 计算深度学习模型的VC维很困难
7. 数据复杂度
- 多个重要因素
- 样本个数
- 每个样本的元素个数
- 时间,空间结构
- 多样性
8. 总结
- 模型容量需要匹配数据复杂度,否则可能导致欠拟合和过拟合
- 统计机器学习提供数学工具来衡量模型复杂度
- 实际中一般靠观察训练误差和验证误差