CHI统计方法度量特征词和类别之间的相关度-LMLPHP

其中,

A:包含特征词w且属于类别c的文档频数

B:包含特征词w但不属于类别c的文档频数

C:属于类别c但不包含特征词w的文档频数

D:既不属于c也不包含特征词w的文档频数

N:文档总数

CHI统计方法用来度量特征词w和类别c之间的相关度。

当值为零时,表示特征值w和c相互独立;值越大,表示相关性越强,此时特征值w包含类别c相关的鉴别信息越多。

去除特征词与类别负相关情况:

CHI统计方法度量特征词和类别之间的相关度-LMLPHP

05-26 23:13