考虑:
dt <- data.table(a=factor(rep(c("a", "b"), 5)), b=1:10)
dt[, list(mean(b), a), by=a]
产生:
a V1 a
1: a 5 1
2: b 6 2
也:
Classes 'data.table' and 'data.frame': 2 obs. of 3 variables:
$ a : Factor w/ 2 levels "a","b": 1 2
$ V1: num 5 6
$ a : int 1 2
- attr(*, ".internal.selfref")=<externalptr>
注意最后一列。实际的
by
列本身很好,当您尝试在by
中显式重用j
列时会出现问题。我也相信.BY
变量具有相同的问题。在Win 7的R 3.0.2和Rstudio的1.9.2中(尽管在Mac OS 10.8上也是如此)。这曾经在较早的版本上起作用(不确定从内存中提取哪个,所以可能是错误的)。如果我做某件事很愚蠢,请先在这里发布。
此外,似乎未分组的
by
变量不再可用。例如:dt[, list(mean(b), a[[2]]), by=a]
会产生超出范围的错误,尽管也许总是这样。我本来希望
a
中的j
在dt
中得到完全评估,所以a[[2]]
应该起作用(无论如何,也许对我来说,从来没有做过,也从未打算这样做过)。会话信息:
R version 3.0.2 (2013-09-25)
Platform: x86_64-pc-linux-gnu (64-bit)
locale:
[1] C
attached base packages:
[1] graphics grDevices utils datasets stats methods base
other attached packages:
[1] data.table_1.9.2
loaded via a namespace (and not attached):
[1] Rcpp_0.11.1 functional_0.4 plyr_1.8.1 reshape2_1.2.2
[5] stringr_0.6.2 tools_3.0.2
最佳答案
您的帖子中有三个问题。我会按顺序回答他们。
1.9.3中修复了在j
中引用不保留类的因数列的问题(错误#5437 IIRC)。由于1.9.0的各种增强(以及R3.1.0 IIRC的某些更改),因此它是一个很小的回归。现在,也添加了测试来捕捉这一点。
require(data.table) ## 1.9.3
dt <- data.table(a=factor(rep(c("a", "b"), 5)), b=1:10)
str(dt[, list(mean(b), a), by=a])
# Classes ‘data.table’ and 'data.frame': 2 obs. of 3 variables:
# $ a : Factor w/ 2 levels "a","b": 1 2
# $ V1: num 5 6
# $ a : Factor w/ 2 levels "a","b": 1 2
# - attr(*, ".internal.selfref")=<externalptr>
.BY
的问题也已在1.9.3中修复:dt[, print(.BY), by=a]
# $a
# [1] a
# Levels: a b
# $a
# [1] b
# Levels: a b
# Empty data.table (0 rows) of 1 col: a
dt[, list(mean(b), a[[2]]), by=a]
# Error in `[[.default`(a, 2) : subscript out of bounds
这是因为
by
中的变量/列默认情况下可作为length=1
向量使用。毕竟,这是您要分组的变量。但是,我已经使用@Matt和@eddi提出了与此功能有关的潜在问题。您可以在评论下找到我和@eddi here之间的简短讨论。我也为此写过Matt,目前正在讨论中。无论解决方案是什么,这将很快得到解决并记录在案。
到目前为止,我的立场是
by
中的列不应掩盖dt
的列。这从bug #5191开始,基本上是这样的:DT <- data.table(x=1:5, y=6:10)
DT[, sum(x), by=x%%3L]
# x V1
# 1: 1 1
# 2: 2 2
# 3: 0 0
实际结果应该在哪里:
DT <- data.table(x=1:5, y=6:10)
DT[, sum(x), by=list(grp=x%%3L)]
# grp V1
# 1: 1 5
# 2: 2 7
# 3: 0 3
结果不正确,因为
by
列x
掩盖了与每个组相对应的x
列DT
。在这种情况下,发生这种情况是因为我们允许在by
中使用表达式。但是,即使不是这种情况,它也会扩展。考虑这种情况:
> DT[, sum(y), by=list(y=x)]
# y V1
# 1: 1 1
# 2: 2 2
# 3: 3 3
# 4: 4 4
# 5: 5 5
这里发生的是,按列
y
命名导致y
中的DT
被屏蔽。恕我直言,应该做的是
by
不应完全掩盖DT
中将在j
中使用的列。相反,如果需要引用分组变量,则应使用已经存在的.BY
变量(或仅使用[1L]
子集第一个索引的子集),如下所示:> DT[, print(.BY$x), by=x]
# [1] 1
# [1] 2
# [1] 3
# [1] 4
# [1] 5
# Empty data.table (0 rows) of 1 col: x
这只是我的观点,可能还有其他论据来保留当前功能并修复这些潜在的错误案例。我们将不得不对其进行讨论并将其解决,并根据我们得出的结论进行相应记录。
完成后,我将更新此帖子:)。
关于r - data.table将`by`中的因子转换为基础整数?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23366292/