其中,A:包含特征词w且属于类别c的文档频数B:包含特征词w但不属于类别c的文档频数C:属于类别c但不包含特征词w的文档频数D:既不属于c也不包含特征词w的文档频数N:文档总数CHI统计方法用来度量特征词w和类别c之间的相关度。当值为零时,表示特征值w和c相互独立;值越大,表示相关性越强,此时特征值w包含类别c相关的鉴别信息越多。去除特征词与类别负相关情况: