给定一组xy坐标,我如何选择n个点,以使这n个点彼此最远离?

以下是一个可能无法对大数据集做得不太好的低效方法(在1000个最远的点中,找出20个点):

xy <- cbind(rnorm(1000),rnorm(1000))

n <- 20
bestavg <- 0
bestSet <- NA
for (i in 1:1000){
    subset <- xy[sample(1:nrow(xy),n),]
    avg <- mean(dist(subset))
    if (avg > bestavg) {
        bestavg <- avg
        bestSet <- subset
    }
}

最佳答案

该代码基于Pascal的代码,删除了距离矩阵中具有最大行总和的点。

m2 <- function(xy, n){

    subset <- xy

    alldist <- as.matrix(dist(subset))

    while (nrow(subset) > n) {
        cdists = rowSums(alldist)
        closest <- which(cdists == min(cdists))[1]
        subset <- subset[-closest,]
        alldist <- alldist[-closest,-closest]
    }
    return(subset)
}


在高斯云上运行,其中m1是@pascal的函数:

> set.seed(310366)
> xy <- cbind(rnorm(1000),rnorm(1000))
> m1s = m1(xy,20)
> m2s = m2(xy,20)


通过查看点间距离的总和,看看谁做得最好:

> sum(dist(m1s))
[1] 646.0357
> sum(dist(m2s))
[1] 811.7975


方法2获胜!并与20分的随机样本进行比较:

> sum(dist(xy[sample(1000,20),]))
[1] 349.3905


表现不如预期。

发生什么了?让我们绘制:

> plot(xy,asp=1)
> points(m2s,col="blue",pch=19)
> points(m1s,col="red",pch=19,cex=0.8)




方法1生成红点,这些红点在空间上均匀分布。方法2创建蓝点,这些蓝点几乎定义了周长。我怀疑这样做的原因很容易解决(在一维甚至更容易...)。

使用初始点的双峰模式也说明了这一点:



同样,方法2产生的总和距离比方法1大得多,但两者都比随机采样要好:

> sum(dist(m1s2))
[1] 958.3518
> sum(dist(m2s2))
[1] 1206.439
> sum(dist(xy2[sample(1000,20),]))
[1] 574.34

08-26 02:23