我想评估3个类的特征的可分离性,并对其他2组特征进行相同的处理,最终证明我的特征提供了最佳的可分离性。更清楚地说,我想衡量的是不同的类以及每个类的紧凑程度。我发现散布矩阵是这些的好选择。
我的问题是:
当数据不可线性分离时/当数据的分布未知或不是高斯分布时,是否可以使用它们(在某些地方,我读到当数据可线性分离或高斯分布时,散射矩阵很有用)。
这只会给我数字,是否存在图形方式来说明可分离性。我的功能是256-D,并且有409个数据实例。
最佳答案
为了评估聚类的距离,您可以做一个简单的测试:计算每个聚类的均值并查看这些点之间的距离。这不会告诉您数据是否可分离,或者数据点在群集中的分散程度如何,但是会告诉您发生了什么。
关于散射矩阵,它是协方差矩阵的近似值:
协方差矩阵(通常会查看其特征值/向量)描述了数据点集。您在这里要问的问题是:好的,什么是使数据方差最大并携带最多能量的方向?不管数据是线性可分离的还是数据的分布是什么。
我认为没有一种很好的方式可以在256维中显示数据!但是您可以绘制边距等图形。
希望这可以帮助,
亚历克斯