fuzzy c-means可以应用于非数字数据集吗?即分类或混合数字和分类。
如果是(我希望是这样:():


我们如何计算聚类中心?


如果否,还有什么选择..如何对这些数据进行模糊聚类?

我需要回应,请帮忙

注意:我已经使用Jacard系数来计算2个点之间的距离,但仍然无法计算聚类中心,请参见附件

最佳答案

您必须将数据转换为数字形式。有多种方法可以做到,其中两种是:


使用特征计数的向量(常见于例如文本分类)
使用单热点表示,其中可以采用n个不同值的分类特征表示为n位字符串,如果特征的第i个值在其允许范围内,则仅设置第i个位。


两者都是许多机器学习程序在后台进行的非常常见的转换。另外,您可能想尝试使用与欧几里得度量不同的度量。 Esp。如果采用一键式表示,但根据数据,L1规范(曼哈顿/城市街区距离)可能更合适。

除此之外,只需将给定的公式应用于转换后的数据集即可。

关于machine-learning - 模糊c-表示分类数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7698713/

10-12 18:58
查看更多