我是机器学习的新手,并且尝试使用聚类算法进行细分。但是,由于我的数据集同时具有类别变量(例如性别,婚姻状况,首选的社交媒体平台等)以及数字变量(平均支出,年龄,收入等),因此我无法决定值得关注的算法。
我应该尝试哪一种:模糊c均值,k-medoids或与k-means ++进行比较的潜在类?对于这些类型的混合数据集,哪些会产生更好的结果?

奖励问题:我应该尝试在不降低维数的情况下进行聚类吗?还是在任何情况下都应使用PCA或K-PCA来减小尺寸?另外,如果数据集具有3个以上的维度,我如何在不可视化的情况下理解和解释结果?

最佳答案

最好的尝试是使用距离度量(例如Gower的距离度量)进行层次化聚集聚类。

不同比例的混合数据通常无法以任何有意义的统计方式工作。您有太多的权重可供选择,因此从统计学上讲,没有任何结果是可以成立的,而是很大程度上取决于您的权重。因此,不可能说某些结果是“真实”的聚类。不要期望这样的结果会很好。

关于python - 确定包含分类变量和数值变量的数据集的聚类算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50046876/

10-12 18:04
查看更多