当在大型数据集上生成相关矩阵时,会存在多个具有相同值的变量,因此无法进行相关并输出NA。我的问题是,在输出相关矩阵之前,如何删除具有这些NA值的所有行和列,或解决此缺陷。所以在这个例子中

df <- as.data.frame(matrix(sample(0:10, 3*8, replace=TRUE), ncol=3))
df$V4 <- rep(3, times = 8)
df$V5 <- rep(2, times = 8)
correlation <- cor(df)


我尝试了不同的方法来克服这个问题,首先通过在相关性计算中增加用途...

correlation_two <- cor(df, use = "pairwise.complete.obs")


但这没有影响。我还尝试了各种方法来删除NA值,但这些方法似乎都不起作用。

output1 <- na.omit(correlation)
output2 <- correlation[complete.cases(correlation),]
output3 <-correlation[,colSums(is.na(correlation))==0]
output4 <- correlation[, !colSums(is.na(correlation)) >1,drop=FALSE] #Removing columns
output4 <- output4[!rowSums(is.na(output4)) >1,drop=FALSE,]#Then rows


先感谢您。

最佳答案

我认为最好是预防问题,而不是事后解决。

标识只有一个值的列:

select_for_correlation <- sapply(df,function(x)(length(unique(x))>1))


然后进行分析:

res <- cor(df[,select_for_correlation])
    > res
            V1          V2          V3
V1  1.00000000 -0.06801818 -0.04626592
V2 -0.06801818  1.00000000 -0.21533949
V3 -0.04626592 -0.21533949  1.00000000

09-06 08:01