我将举例说明我的问题。
样本数据:
df <- data.frame(ID = c(1, 1, 2, 2, 3, 5), A = c("foo", "bar", "foo", "foo", "bar", "bar"), B = c(1, 5, 7, 23, 54, 202))
df
ID A B
1 1 foo 1
2 1 bar 5
3 2 foo 7
4 2 foo 23
5 3 bar 54
6 5 bar 202
我想做的是通过ID总结B的总和以及当A为“foo”时B的总和。我可以按照以下几个步骤进行操作:
require(magrittr)
require(dplyr)
df1 <- df %>%
group_by(ID) %>%
summarize(sumB = sum(B))
df2 <- df %>%
filter(A == "foo") %>%
group_by(ID) %>%
summarize(sumBfoo = sum(B))
left_join(df1, df2)
ID sumB sumBfoo
1 1 6 1
2 2 30 30
3 3 54 NA
4 5 202 NA
但是,我正在寻找一种更优雅/更快的方法,因为我正在处理sqlite中超过10gb的内存不足数据。
require(sqldf)
my_db <- src_sqlite("my_db.sqlite3", create = T)
df_sqlite <- copy_to(my_db, df)
我想到了使用
mutate
定义新的Bfoo
列:df_sqlite %>%
mutate(Bfoo = ifelse(A=="foo", B, 0))
不幸的是,这不适用于数据库。
Error in sqliteExecStatement(conn, statement, ...) :
RS-DBI driver: (error in statement: no such function: IFELSE)
最佳答案
您可以在一个dplyr
语句中完成两个总和:
df1 <- df %>%
group_by(ID) %>%
summarize(sumB = sum(B),
sumBfoo = sum(B[A=="foo"]))
这是data.table
版本:library(data.table)
dt = setDT(df)
dt1 = dt[ , .(sumB = sum(B),
sumBfoo = sum(B[A=="foo"])),
by = ID]
dt1
关于r - 总结dplyr中的条件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23528862/