我有一个看似简单的问题,与我开发的问题相比,我需要更快的R实现
我为此示例初始化随机种子和尺寸:
set.seed(1)
d1<-400
d2<-20000
d3<-50
我有一个矩阵X,尺寸为d1 x d2:
X<-as.data.frame(matrix(rnorm(d1*d2),nrow=d1,ncol=d2))
rownames(X)<-paste0("row",1:nrow(X))
colnames(X)<-paste0("col",1:ncol(X))
以及具有d1行索引的向量u:
u<-sample(rownames(X),nrow(X),replace=TRUE)
我还有一个矩阵C,其命名的行和尺寸为d3 x d2:
C<-matrix(rnorm(d3*d2),nrow=d3,ncol=d2)
rownames(C)<-sample(rownames(X),nrow(C),replace=FALSE)
现在,使用下面的非常慢的循环,我用匹配的X行的总和填充矩阵C:
system.time(
for(i in 1:nrow(C)){
indexes<-which(u==rownames(C)[i])
C[i,] <- colSums(X[indexes,])
}
)
在我的PC上,此操作大约需要11.5秒,但是我确信可以通过避免for循环来加快操作速度。有任何想法吗?非常感谢!
最佳答案
只需使用带有选项的matrixStats::colSums2
即可传递行索引并将rownames()
移到循环外(X
需要转换为矩阵):
Xm <- as.matrix(X)
names_of_rows <- rownames(C)
system.time(for (i in 1:nrow(C)) {
indexes <- which(u == names_of_rows[i])
C[i, ] <- matrixStats::colSums2(Xm, rows = indexes)
})
# 0.03 sek