本文介绍了聚类算法纸男孩的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我按照一定的标准需要帮助选择或创建一个聚类算法。

I need help selecting or creating a clustering algorithm according to certain criteria.

想象一下,你所管理的送报人。

Imagine you are managing newspaper delivery persons.

  • 您有一组街道地址,其中每个地理codeD。
  • 您要群集的地址,使得每个集群被分配给送货人
  • 递送者,或集群的数量,不固定。如果需要,我随时可以雇佣更多的人交货,或躺在它们赶走。
  • 每个集群有关于地址的数量相同。然而,一个集群可能较少有地址,如果群集的地址是多个S $ P $垫出来。 (措辞另一种方式:其中,每个集群包含地址的最大数量簇最小数目,以及集群内的任何地址必须由最大距离分隔)
  • 对于加分,当数据集被改变(添加地址或删除),并且该算法重新运行,这将是很好,如果集群仍然是不变的可能(即这排除了简单的K-均值集群是随机的特征)。否则,运送人会发疯。

所以...想法?

更新

这条街网络图,在蜘蛛的回答说明,是不具备的。

The street network graph, as described in Arachnid's answer, is not available.

推荐答案

我想你想有一个分层结块技术,而不是K-手段。如果你得到你的算法的权利,你可以当你有集群的权数停止。正如别人提到你可以用种子previous解决方案后续的聚类这可能会给你一个显着帮助的性能提升。

I think you want a hierarchical agglomeration technique rather than k-means. If you get your algorithm right you can stop it when you have the right number of clusters. As someone else mentioned you can seed subsequent clusterings with previous solutions which may give you a siginificant performance improvement.

您可能想仔细看看你使用的距离函数,特别是如果你的问题有很高的层面。欧氏距离是最容易理解的,但未必是最好的,看一下替代品,如马氏。

You may want to look closely at the distance function you use, especially if your problem has high dimension. Euclidean distance is the easiest to understand but may not be the best, look at alternatives such as Mahalanobis.

我是presuming你真正的问题无关,与送报纸......

I'm presuming that your real problem has nothing to do with delivering newspapers...

这篇关于聚类算法纸男孩的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-01 20:42