我有一个大数据集45421 * 12(行*列),其中包含所有分类变量。我的数据集中没有数值变量。我想使用此数据集构建无监督的聚类模型,但是在建模之前,我想知道此数据集的最佳特征选择模型。
而且我无法将肘部曲线绘制到该数据集。我用k均值弯头法给出范围k = 1-1000,但是它没有给出任何最佳的聚类图并且需要8-10个小时来执行。如果有人提出更好的解决方案,那将是极大的帮助。
码:
data = {'UserName':['infuk_tof', 'infus_llk', 'infaus_kkn', 'infin_mdx'],
'UserClass':['high','low','low','medium','high'],
'UserCountry':['unitedkingdom','unitedstates','australia','india'],
'UserRegion':['EMEA','EMEA','APAC','APAC'],
'UserOrganization':['INFBLRPR','INFBLRHC','INFBLRPR','INFBLRHC'],
'UserAccesstype':['Region','country','country','region']}
df = pd.DataFrame(data)
最佳答案
对于这样的分类数据,K均值不是合适的聚类算法。您可能需要寻找一种K模式方法,但很遗憾,该方法当前未包含在scikit-learn软件包中。您可能需要查看此软件包,以获取github上可用的kmode:https://github.com/nicodv/kmodes,它遵循了您从scikit-learn惯用的许多语法。
有关更多信息,请参见此处的讨论:https://datascience.stackexchange.com/questions/22/k-means-clustering-for-mixed-numeric-and-categorical-data