统计学习

1.绪论

统计学习可以分为:监督学习(样本有标签),无监督学习(样本无标签),半监督学习(一部分有标签,一部分无标签),强化学习

统计学习方法的步骤如下:
(1) 得到一个有限的训练数据集合;
(2)确定包含所有可能的模型假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策络;
(4)实现求解最优模型的算法,即学习的算法
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或者分析

1.1 监督学习

1.3 统计方法三要素

方法=模型+策略+算法

决策函数和条件概率分布函数
决策函数类似于y=kx+b,输入x可以得到Y,
条件概率分布函数则是通过输入多个x,判断生成y的哪个概率最大

策略:通过损失函数判断

1.4 过拟合

我们把预测值和样本标签值几乎完全一致的情况叫做过拟合

1.5 正则化

为了解决过拟合,可以使用正则化和交叉验证.
也可以增加样本数量.
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

1.6 交叉验证

应用最多的是S折交叉验证(S-fold cross validation),方法如下:首先随机地将
已给数据切分为S个互不相交、大小相同的子集;然后利用S-1贪子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S 次评测中平均测试误差最小的模型。
统计学习第一章-LMLPHP

11-04 13:39