好奇心不只是一个问题,但我想知道为什么data.table CJ函数返回具有最右边索引运行速度更快的对象(与基本expand.grid函数相反)。

一个例子:

CJ(a=letters[1:2],b=LETTERS[1:2])
#   a b
#1: a A
#2: a B
#3: b A
#4: b B
expand.grid(a=letters[1:2],b=LETTERS[1:2])
#  a b
#1 a A
#2 b A
#3 a B
#4 b B


我认为运行速度最快的最左边的索引更像R-ish。 CJ是否有理由遵循其他顺序?

最佳答案

像这样对CJ的结果进行排序很方便,因为它随后可以由所有列进行键控,从而可以进行如下操作:

dt = data.table(a = c(1,2,1), b = 1:3, c = c('a', 'a', 'b'))
setkey(dt, a, c)
#   a b c
#1: 1 1 a
#2: 1 3 b
#3: 2 2 a

dt[CJ(unique(a), unique(c))]
#   a  b c
#1: 1  1 a
#2: 1  3 b
#3: 2  2 a
#4: 2 NA b

# just checking the key:
key(dt[, CJ(unique(a), unique(c))])
#[1] "V1" "V2"

08-24 17:35