sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频)
https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share
赤池信息量准则 是由日本统计学家赤池弘次创立的,以熵的概念基础确定。
赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。
公式:
在一般的情况下,AIC可以表示为:
AIC=(2k-2L)/n
参数越少,AIC值越小,模型越好
样本数越多,AIC值越小,模型越好
这和调整的R方思路一致,即对变量多的模型加重惩罚力度
它的假设条件是模型的误差服从独立正态分布。
其中:k是所拟合模型中参数的数量,L是对数似然值,n是观测值数目。
AIC的大小取决于L和k。k取值越小,AIC越小;L取值越大,AIC值越小。k小意味着模型简洁,L大意味着模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性。
具体到,L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量,sse为残差平方和
表明增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。
AICc和AICu
在样本小的情况下,AIC转变为AICc:
AICc=AIC+[2k(k+1)/(n-k-1)
当n增加时,AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下(Burnham and Anderson, 2004)。
McQuarrie 和 Tsai(1998: 22)把AICc定义为:
AICc=ln(RSS/n)+(n+k)/(n-k-2),
他们提出的另一个紧密相关指标为AICu:
AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2).