目录
主成分分析(PCA)是最常用的线性降维方法
它的目标是通过某种线性投影,将高维的数据映射到低维的空间中
并期望在所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度
尽可能如果把所有的点都映射到一起,那么几乎所有的区分信息都丢失了,而如果映射后方差尽可能的大,那么数据点则会分散开来,特征更加明显。
PCA是丢失原始数据信息最少的一种线性降维方法,最接近原始数据
PCA算法目标是求出样本数据的协方差矩阵的特征值和特征向量,而协方差矩阵的特征向量的方向就是PCA需要投影的方向。使样本数据向低维投影后,能尽可能表征原始的数据。协方差矩阵可以用散布矩阵代替,协方差矩阵乘以(n-1)就是散布矩阵,n为样本的数量。协方差矩阵和散布矩阵都是对称矩阵,主对角线是各个随机变量(各个维度)的方差。
设有m条n维数据,PCA的一般步骤如下
将原始数据按列组成n行m列矩阵X
---计算矩阵X中每个特征属性(n维)的平均向量M(平均值)
---将X的每行(代表一个属性字段)进行零均值化,即减去M
---按照公式𝐶=1 / m(𝑋*𝑋)^T求出协方差矩阵
---求出协方差矩阵的特征值及对应的特征向量
---将特征向量按对应特征值从大到小按行排列成矩阵,取前k(k < n)行组成基向量P
---通过Y=PX计算降维到k维后的样本特征
计算40个点在3个维度上的平均向量
转化为二维空间分布