普通线性回归的形式为:(之所以这么写是因为的线性才是线性的所指)
线性回归模型有一下以下几个特征:
1.
2.x,y 通常取值连续
3.y的分布为正态分布或接近正态。
广义线性模型进行了如下推广:
1.,h为严格单调充分光滑已知函数。(h的反函数)称为联系函数。;
2.x,y可去连续或离散值,离散值比较常见。
3.y的分布推广到指数型分布,正态是其特例。 y的密度形式:
b(·) ,c(·)为已知函数,为自然参数,为额外参数或散布参数。
此时可以证明,b上面加一点表示b的一阶导数,两点代表其二阶导数。
(y1,y2,y3,y4...)的联合分布函数(似然函数)为:
其中,因为
所以刚好等于h的反函数时(h=·b),该似然函数有最简单形式:
下面我们对二分类(0-1,logic)问题进行讨论:
对于 y=f(x),y的取值为只有0 1的问题,
记,y的密度表达式为 ,若要写成指数形式,经推导,可另(相对应的,),
这样密度表达式()有指数形式:,
。相当于。
所以,
是我们想要的最简形式。
此时,,这就是著名的logistic模型。
另外,可以验证定理,
,均值
,方差
注:大部分内容源自zhang san guo老师课件。