我想知道是否data.table中的CJ()方法有一个选项可以采用由求值条件形成的向量,而不是运行完整的交叉联接。

数据

library(data.table)
df<-data.table(
  ID=c(18L,  18L,  18L,  46L,  74L,  74L, 165L, 165L),
  cat=c(1300L, 1320L, 1325L, 1300L, 1300L, 1325L, 1300L, 1325L),
  low=c(24.625, 16.250, 14.500, 43.625, 58.250, 45.375, 90.750, 77.875),
  high=c(26.625, 17.500, 15.500, 45.625, 60.000, 47.375, 92.750, 79.875)
  )

df
    ID  cat    low   high
1:  18 1300 24.625 26.625
2:  18 1320 16.250 17.500
3:  18 1325 14.500 15.500
4:  46 1300 43.625 45.625
5:  74 1300 58.250 60.000
6:  74 1325 45.375 47.375
7: 165 1300 90.750 92.750
8: 165 1325 77.875 79.875


在这里,我对4个不同的项目(ID 18、46、74和165)总共进行了8次观察。每一项都记录在几个类别中(目录1300、1320、1325),并进行了两次测量(低和高)。

期望的输出

现在,我想创建一个表,该表通过交叉联接将每个类别(cat)的低值与所有较大类别的高值连接起来。我想要的输出看起来像

    ID  cat  cat_large    low   high
1:  18 1300      1320  24.625 17.500
2:  18 1300      1325  24.625 15.500
3:  18 1320      1325  16.250 15.500
4:  74 1300      1325  58.250 47.375
5: 165 1300      1325  90.750 79.875


我在其中添加了cat_high,以指示哪些类别以低/高的形式加入。

不幸的是,我找不到正确的方法来修改我的完全交叉联接df[,CJ(low=low,high=high),by=.(ID)]来表现得像这样。感谢您的帮助/提示。

最佳答案

单程:

df[, c(
  CJ(cat = cat, lcat = cat, sorted = FALSE),
  CJ(low = low, high = high, sorted = FALSE)
), by=ID][lcat > cat]

    ID  cat lcat    low   high
1:  18 1300 1320 24.625 17.500
2:  18 1300 1325 24.625 15.500
3:  18 1320 1325 16.250 15.500
4:  74 1300 1325 58.250 47.375
5: 165 1300 1325 90.750 79.875

08-25 19:38