考虑:

dt <- data.table(a=factor(rep(c("a", "b"), 5)), b=1:10)
dt[, list(mean(b), a), by=a]


产生:

   a V1 a
1: a  5 1
2: b  6 2


也:

Classes 'data.table' and 'data.frame':  2 obs. of  3 variables:
 $ a : Factor w/ 2 levels "a","b": 1 2
 $ V1: num  5 6
 $ a : int  1 2
 - attr(*, ".internal.selfref")=<externalptr>


注意最后一列。实际的by列本身很好,当您尝试在by中显式重用j列时会出现问题。我也相信.BY变量具有相同的问题。在Win 7的R 3.0.2和Rstudio的1.9.2中(尽管在Mac OS 10.8上也是如此)。这曾经在较早的版本上起作用(不确定从内存中提取哪个,所以可能是错误的)。

如果我做某件事很愚蠢,请先在这里发布。

此外,似乎未分组的by变量不再可用。例如:

dt[, list(mean(b), a[[2]]), by=a]


会产生超出范围的错误,尽管也许总是这样。我本来希望a中的jdt中得到完全评估,所以a[[2]]应该起作用(无论如何,也许对我来说,从来没有做过,也从未打算这样做过)。

会话信息:

R version 3.0.2 (2013-09-25)
Platform: x86_64-pc-linux-gnu (64-bit)

locale:
[1] C

attached base packages:
[1] graphics  grDevices utils     datasets  stats     methods   base

other attached packages:
[1] data.table_1.9.2

loaded via a namespace (and not attached):
[1] Rcpp_0.11.1    functional_0.4 plyr_1.8.1     reshape2_1.2.2
[5] stringr_0.6.2  tools_3.0.2

最佳答案

您的帖子中有三个问题。我会按顺序回答他们。

1.9.3中修复了在j中引用不保留类的因数列的问题(错误#5437 IIRC)。由于1.9.0的各种增强(以及R3.1.0 IIRC的某些更改),因此它是一个很小的回归。现在,也添加了测试来捕捉这一点。

require(data.table) ## 1.9.3
dt <- data.table(a=factor(rep(c("a", "b"), 5)), b=1:10)
str(dt[, list(mean(b), a), by=a])

# Classes ‘data.table’ and 'data.frame':    2 obs. of  3 variables:
#  $ a : Factor w/ 2 levels "a","b": 1 2
#  $ V1: num  5 6
#  $ a : Factor w/ 2 levels "a","b": 1 2
#  - attr(*, ".internal.selfref")=<externalptr>




.BY的问题也已在1.9.3中修复:

dt[, print(.BY), by=a]
# $a
# [1] a
# Levels: a b

# $a
# [1] b
# Levels: a b

# Empty data.table (0 rows) of 1 col: a




dt[, list(mean(b), a[[2]]), by=a]
# Error in `[[.default`(a, 2) : subscript out of bounds


这是因为by中的变量/列默认情况下可作为length=1向量使用。毕竟,这是您要分组的变量。

但是,我已经使用@Matt和@eddi提出了与此功能有关的潜在问题。您可以在评论下找到我和@eddi here之间的简短讨论。我也为此写过Matt,目前正在讨论中。无论解决方案是什么,这将很快得到解决并记录在案。

到目前为止,我的立场是by中的列不应掩盖dt的列。这从bug #5191开始,基本上是这样的:

DT <- data.table(x=1:5, y=6:10)
DT[, sum(x), by=x%%3L]
#    x V1
# 1: 1  1
# 2: 2  2
# 3: 0  0


实际结果应该在哪里:

DT <- data.table(x=1:5, y=6:10)
DT[, sum(x), by=list(grp=x%%3L)]
#    grp V1
# 1:   1  5
# 2:   2  7
# 3:   0  3


结果不正确,因为byx掩盖了与每个组相对应的xDT。在这种情况下,发生这种情况是因为我们允许在by中使用表达式。

但是,即使不是这种情况,它也会扩展。考虑这种情况:

> DT[, sum(y), by=list(y=x)]
#    y V1
# 1: 1  1
# 2: 2  2
# 3: 3  3
# 4: 4  4
# 5: 5  5


这里发生的是,按列y命名导致y中的DT被屏蔽。

恕我直言,应该做的是by不应完全掩盖DT中将在j中使用的列。相反,如果需要引用分组变量,则应使用已经存在的.BY变量(或仅使用[1L]子集第一个索引的子集),如下所示:

> DT[, print(.BY$x), by=x]
# [1] 1
# [1] 2
# [1] 3
# [1] 4
# [1] 5
# Empty data.table (0 rows) of 1 col: x


这只是我的观点,可能还有其他论据来保留当前功能并修复这些潜在的错误案例。我们将不得不对其进行讨论并将其解决,并根据我们得出的结论进行相应记录。

完成后,我将更新此帖子:)。

关于r - data.table将`by`中的因子转换为基础整数?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23366292/

10-09 17:10
查看更多