我正在尝试提高以下过程的计算效率。我创建了玩具示例,并使用数据进行了审查。第一种方法的运行时间是第二种方法的一半。

如何在第一种方法中改善运行时间?

library(sqldf)
id = c(1,1,1,1,2,2,2,5,5,5,5,5,5)
qn = c(0,0,1,1,0,1,0,0,0,1,0,1,0)
d = data.frame(cbind(id,qn))
names(d) = c("id", "qn")

un = unique(d$id)
holder = matrix(0,length(un), 1)
counter = 0

x = proc.time()

for (i in un)
{
  z = head(which(d[d$id == i,]$qn==1),1)
  counter = counter + 1
  holder[counter,] = z
}

proc.time() - x
f = sqldf("select id, count(qn) from d group by id", drv = 'SQLite')
f = cbind(f,holder)
#################################
un = unique(d$id)
holder = matrix(0,length(un), 1)
counter = 0

x = proc.time()

for (i in 1:length(un))
{
  y = paste("select * from d where id = ", un[i])
  y = sqldf(y, drv = 'SQLite')
  y = min(which(y$qn==1))
  counter = counter + 1
  holder[counter,] = y
}

proc.time() - x
f = sqldf("select id, count(qn) from d group by id", drv = 'SQLite')
f = cbind(f,holder)


我正在尝试为每个id计算1的第一个实例。

预期产量:

# id first
# 1:  1     3
# 2:  2     2
# 3:  5     3

最佳答案

我们也可以使用data.table

library(data.table)
setDT(d)[, list(first= which.max(qn)) , id]

关于r - 改善循环的运行时间,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33228671/

10-12 17:50