判别分析作为一种多元分析技术应用相当广泛,和其他多元分析技术不同,判别分析并没有将降维作为主要任务,而是通过建立判别函数来概括各维度之间的差异,并且根据这个判别函数,将新加入的未知类别的样本进行归类,从这个角度讲,判别分析是从另一个角度对数据进行归类。
判别分析由于要建立判别函数,因此和回归分析类似,也有因变量和自变量,并且因变量应为分类变量,这样才能够最终将数据进行归类,而自变量可以是任意尺度变量,分类变量需要设置为哑变量。
既然和回归分析类似,那么判断分析也有一定的适用条件,这些适用条件也和回归分析类似
1.自变量和因变量的关系符合线性假定
违反时,可以使用曲线直线化、二次判别分析等方法
2.因变量取值是独立的,并且必须事先就已确定
这个很好理解,既然最终要归类,就要实现确定归为哪几类
3.自变量服从多元正态分布
违反时影响不大
4.自变量各组间方差齐性,协方差矩阵齐
违反时,可使用经典判别分析、非参数判别分析、距离判别分析
5.自变量间不存在共线性
违反时可以采用类似于线性回归中对共线性的处理,如逐步判别分析,岭判别分析等,和线性回归一样,共线性可以使判别函数的系数发生变化,但是对于判别结果则影响不大
判别分析根据不同的判别准则可以分为经典判别分析、贝叶斯判别分析、非参数判别分析等,SPSS中将其和聚类共用一个过程,下面我们来介绍这几种方法在SPPS中的应用
一、经典判别分析
收集了一些鸢尾花的数据,其中spno为类别,有三个水平,其余四个为变量,想通过此数据进行判别分析,建立判别函数以对花进行区分,数据组成如下
分析—分类—判别
二、贝叶斯判别分析
贝叶斯体系的主要思想是根据先验概率去推证后验概率也就是实验结果,将其引入判别分析之后,就变成计算后验概率及错判率,用最大后验概率来进行判别,并使错判率最小。
在SPSS中,贝叶斯判别和经典判别只是设置上稍有不同