前几天看王垠的一篇文章谈数学与编程,说数学公式之所以难以理解是因为缺乏统一的形式,而且经常有未定义的变量出现。看这本书时也正有此感,所以有时不必要拘泥公式是否前后一致,理解意思要紧。
♣普通最小二乘法ordinary least squares,OLS
Ŷ=β+βX
û=Y-Ŷ
(加帽表示这是样本回归里用的,Ŷ为估计值,Y为真实值)
使估计值尽可能接近真实值,使用残差平方和∑û最小的方法,优点如下:
- 残差不会发生正负抵消的情况。
- 残差较大时,因为有平方,所以权重也较大。
- 求出的ββ容易计算。
根据ββ画出的样本回归线有如下性质:
- 穿过Y的样本均值和X的样本均值点。
- 估计值的均值等于真实值的均值。
- 残差的均值为0.
- 残差û与X和Ŷ都不相关。
♣经典线性回归模型CLRM(classical linear regression model)的7个假定
- 线性回归模型。(线性于参数)
- X是固定的或独立于误差项。
- 随机误差项的均值为0.
- 同方差性。
- 各个干扰项之间无自相关。
- 观测次数必须大于待估计的参数个数。
- 样本的X不能全部相同,且没有过大过小。
♣OLS的精度
- 参数ββ的标准误差。
- 估计值Y的标准误差。
- 判定系数r,界限为0到1,越接近1,表示拟合越好。
♣高斯-马尔可夫定理
在给定CLRM假定下,最小二乘估计量在所有线性无偏估计量中具有最小方差,是最优线性无偏估计量。
无偏:参数β估计值的期望等于其真值。