本节知识点:


贝叶斯统计及规范化(防止过拟合的方法)

就是要找更好的估计方法来减少过度拟合情况的发生。
回顾一下,线性回归中使用的估计方法是最小二乘法,logistic  回归是条件概率的最大
似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM 是二次规划。

一下转自:http://52opencourse.com/133/coursera

斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分:

1)  The Problem of Overfitting(过拟合问题)

2)  Cost Function(成本函数)

3)  Regularized Linear Regression(线性回归的正则化)

4)  Regularized Logistic Regression(逻辑回归的正则化)

以下是每一部分的详细解读。

1)  The Problem of Overfitting(过拟合问题)

拟合问题举例-线性回归之房价问题:

a) 欠拟合(underfit, 也称High-bias)

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

b) 合适的拟合:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

c) 过拟合(overfit,也称High variance)

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

什么是过拟合(Overfitting):

如果我们有非常多的特征,那么所学的Hypothesis有可能对训练集拟合的非常好(【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP),但是对于新数据预测的很差。

过拟合例子2-逻辑回归:

与上一个例子相似,依次是欠拟合,合适的拟合以及过拟合:

a) 欠拟合

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

b) 合适的拟合

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

c) 过拟合

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

如何解决过拟合问题:

首先,过拟合问题往往源自过多的特征,例如房价问题,如果我们定义了如下的特征:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

那么对于训练集,拟合的会非常完美:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

所以针对过拟合问题,通常会考虑两种途径来解决:

a) 减少特征的数量:

-人工的选择保留哪些特征;

-模型选择算法(之后的课程会介绍)

b) 正则化

-保留所有的特征,但是降低参数【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP的量/值;

-正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;

2)  Cost Function(成本函数)

依然从房价预测问题开始,这次采用的是多项式回归:

a) 合适的拟合:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

b) 过拟合

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

直观来看,如果我们想解决这个例子中的过拟合问题,最好能将【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP的影响消除,也就是让【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP.

假设我们对【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP进行惩罚,并且令其很小,一个简单的办法就是给原有的Cost function加上两个略大惩罚项,例如:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

这样在最小化Cost function的时候,【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP.

正则化:

参数【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP取小一点的值,这样的优点:

-“简化”的hypothesis;

-不容易过拟合;

对于房价问题:

-特征包括:【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

-参数包括:【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

我们对除【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP以为的参数进行惩罚,也就是正则化:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

正式的定义-经过正则化的Cost Function有如下的形式:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

其中【cs229-Lecture11】贝叶斯统计正则化-LMLPHP称为正则化参数,我们的目标依然是最小化【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP: 【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

例如,对于正则化的线性回归模型来说,我们选择【cs229-Lecture11】贝叶斯统计正则化-LMLPHP来最小化如下的正则化成本函数:
【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

如果将 【cs229-Lecture11】贝叶斯统计正则化-LMLPHP 设置为一个极大的值(例如对于我们的问题,设 【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP)? 那么

-算法依然会正常的工作, 将 【cs229-Lecture11】贝叶斯统计正则化-LMLPHP设置的很大不会影响算法本身;

-算法在去除过拟合问题上会失败;

-算法的结构将是欠拟合(underfitting),即使训练数据非常好也会失败;

-梯度下降算法不一定会收敛;

这样的话,除了【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP,其他的参数都约等于0, 【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP, 将得到类似如下的欠拟合图形:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述:

3)  Regularized Linear Regression(线性回归的正则化)

线性回归包括成本函数,梯度下降算法及正规方程解法等几个部分,不清楚的读者可以回顾第二课第四课的笔记,这里将分别介绍正则化后的线性回归的成本函数,梯度下降算法及正规方程等。

首先来看一下线性回归正则化后的Cost function:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

我们的目标依然是最小化【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP,从而得到相应的参数【cs229-Lecture11】贝叶斯统计正则化-LMLPHP. 梯度下降算法是其中的一种优化算法,由于正则化后的线性回归Cost function有了改变,因此梯度下降算法也需要相应的改变:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

注意,对于参数【cs229-Lecture11】贝叶斯统计正则化-LMLPHP,梯度下降算法需要区分【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

同样的正规方程的表达式也需要改变,对于:

X 是m * (n+1)矩阵

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

y是m维向量:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

正则化后的线性回归的Normal Equation的公式为:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

假设样本数m小于等于特征数x, 如果没有正则化,线性回归Normal eqation如下:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

如果【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP不可逆怎么办?之前的办法是删掉一些冗余的特征,但是线性回归正则化后,如果【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP,之前的公式依然有效:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

其中括号中的矩阵可逆。

4)  Regularized Logistic Regression(逻辑回归的正则化)

和线性回归相似,逻辑回归的Cost Function也需要加上一个正则化项(惩罚项),梯度下降算法也需要区别对待参数\(\theta).

再次回顾一些逻辑回归过拟合的情况,形容下面这个例子:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

其中Hypothesis是这样的:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

逻辑回归正则化后的Cost Function如下:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

梯度下降算法如下:

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

其中【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP【cs229-Lecture11】贝叶斯统计正则化-LMLPHP.

参考资料:

第七课“正则化”的课件资料下载链接,视频可以在Coursera机器学习课程上观看或下载:https://class.coursera.org/ml

PPT PDF

李航博士《统计学习方法

http://en.wikipedia.org/wiki/Regularization_%28mathematics%29

http://en.wikipedia.org/wiki/Overfitting


在线学习

以下转自:http://blog.csdn.net/stdcoutzyx

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

【cs229-Lecture11】贝叶斯统计正则化-LMLPHP

05-11 18:34