我正在学习非线性聚类算法,并且遇到了这个二维图。我想知道哪种聚类算法和超参数的组合能很好地聚类该数据。
就像人类会将这五个尖峰聚类一样。我希望我的算法能够做到。
我尝试了KMeans,但它只是水平或垂直聚集。我开始使用GMM,但无法获得适合所需集群的超参数。
最佳答案
如果不起作用,请始终先尝试改进预处理。 k均值之类的算法对缩放非常敏感,因此需要谨慎选择。
GMM显然是您的首选。可能值得尝试其他工具。 R的Mclust非常慢。 Sklearn的GMM有时不稳定。 ELKI入门较难,但是它的EM通常给我最好的结果。
除了GMM之外,还值得尝试相关性聚类。这些算法假设存在集群的某个流形(例如一条线)。例子包括ORCLUS,LMCLUS,CASH,4C等。但是在我看来,这些大多适用于合成玩具数据。
关于cluster-analysis - 哪种算法和超参数的哪种组合将是对这些数据进行聚类的最佳方法?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56395293/