我正在寻找某种算法,例如k均值,用于按距离将地图上的点分为固定数量的组。
组的数量已经确定,但是技巧部分(至少对我来说)是要满足每个组的MOS总和应在一定范围内(例如大于1)的标准。是否有任何方法可以做到这一点发生?

ID MOS          X        Y

1 0.47   39.27846 -76.77101
2 0.43   39.22704 -76.70272
3 1.48   39.24719 -76.68485
4 0.15   39.25172 -76.69729
5 0.09   39.24341 -76.69884

最佳答案

您的问题让我很感兴趣,但不确定如何将某种随机过程引入分组算法。如果您对数据集进行置换(例如,行的顺序),似乎kmeans算法确实给出了不同的结果。我发现了这条信息here。以下脚本通过随机数据集对此进行了演示。该图以黑色显示原始数据,然后通过排列(颜色)在每个聚类的中心绘制一个段。

由于我不确定您的MOS变量的定义方式,因此我向数据框添加了一个随机变量,以说明您如何查找满足给定条件的聚类。为每个群集计算MOS的总和,并将结果存储在MOS.sums对象中。为了重现良好的聚类,可以使用用于置换的随机种子值,该值存储在种子对象中。您可以看到排列结果是几个不同的聚类:

set.seed(33)
nsamples=500
nperms=10
nclusters=3

df <- data.frame(x=runif(nsamples), y=runif(nsamples), MOS=runif(nsamples))

MOS.sums <- matrix(NaN, nrow=nperms, ncol=nclusters)
colnames(MOS.sums) <- paste("cluster", 1:nclusters, sep=".")
rownames(MOS.sums) <- paste("perm", 1:nperms, sep=".")

seeds <- round(runif(nperms, min=1, max=10000))

    plot(df$x, df$y)
COL <- rainbow(nperms)
for(i in seq(nperms)){
    set.seed(seeds[i])
    ORD <- sample(nsamples)
    K <- kmeans(df[ORD,1:2], centers=nclusters)
    MOS.sums[i,] <- tapply(df$MOS[ORD], K$cluster, sum)
    segments(df$x[ORD], df$y[ORD], K$centers[K$cluster,1], K$centers[K$cluster,2], col=COL[i])
}
seeds
MOS.sums

08-20 00:48