This question already has answers here:
How to join (merge) data frames (inner, outer, left, right)

(13个回答)


3年前关闭。




我有两个data(.xlsx),DT1DT2。我想基于newcol中的原始列在DT1中创建一个新列DT1,并映射到DT2中的列。
我知道这是模棱两可的,因此我在这里进一步说明:
首先,这是我的两个数据。
DT1
code    type
AH1     AM
AS5     AM
NMR     AM
TOS     AM
IP      AD
CC      ADCE
CA      Wa

DT2
code    year   month
AH1     2011   2
AH1     2011   5
AS5     2012   7
AS5     2012   6
AS5     2013   3
CC      2014   6
CA      2016   11
其次,在DT2中,列yearmonth在此问题中不重要。我们不需要考虑。
第三,我想要的结果是:
DT2
code    year   month   newcol
AH1     2011   2       AM
AH1     2011   5       AM
AS5     2012   7       AM
AS5     2012   6       AM
AS5     2013   3       AM
CC      2014   6       ADCE
CA      2016   11      Wa
newcol中的DT2是根据数据DT1创建的。
我看到了像DT2[DT1, ...]这样的语法来解决,但我忘记了。有什么帮助吗?
数据
DT1 <- "  code    type
1:        AH1     AM
2:        AS5     AM
3:        NMR     AM
4:        TOS     AM
5:        IP      AD
6:        CC      ADCE
7:        CA      Wa
"
DT1 <- read.table(text=DT1, header = T)
DT1 <- as.data.table(DT1)

DT2 <- "code    year   month
1: AH1     2011   2
2: AH1     2011   5
3: AS5     2012   7
4: AS5     2012   6
5: AS5     2013   3
6: CC      2014   6
7: CA      2016   11
"
DT2 <- read.table(text=DT2, header =T)
DT2 <- as.data.table(DT2)
P.S. 此外,在excel中,有一个函数VLOOKUP可以解决该问题:
# Take first obs. as an example.
DT2
code    year   month
AH1     2011   2
# newcol is column D. So in D2, we type:
=VLOOKUP(TRIM(A1), 'DT1'!$A$2:$A$8, 2, FALSE)
根据@akrun回答下的评论更新
我原来的DT1有86个obs。 DT2具有451125 obs。我使用@akrun的答案,DT2减少为192409。太奇怪了。 DT2 $ code不包含任何NA。我不知道为什么
length(unique(DT1$code1))
[1] 86
length(unique(DT2$code))
[1] 39

table(DT1$code1)
AHI AHI002 AHI004 AHI005 AHS002 AHS003 AHS004 AHS005    AMR AMR002 AMR003 AMRHI3   CARD   CCRU  HPA01  HWPA1 HWPA1T    IOA  IOA01
 1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1
IOA01T IPA010 IPA011 IPA012 IPA013 IPA014 IPACC3 IPACC4 IPACC5 IPACC6   IPAR  IPAR2 IPARK2 IPARKI   NAHI  NAHI2   NAMR  NAMR2    NCC
 1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1
NCC2   NCC5  NCC5T  NNAHI NNAHI2  NNAMR NNAMR2     PL    PL2   PLFI    REI    SPA SPA001   SPA3   TADS  TADS2   TAHI  TAHI2   TAHS
 1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1
TAHS2   TAMB  TAMB2   TAMD  TAMD2   TAMR  TAMR2  TBURN TBURN2   TCCR   TFPS    TFS   TFS2    THE  THIBN THIBN2   TICU  TICU2   TIPA
 1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1      1
TIPA2  TIPAK TIPAK2   TNCC    TOS   TOS2   TSAO  TSAO2   TSPA    WED
 1      1      1      1      1      1      1      1      1      1

table(DT2$code)
AHI002 AHI005 AHS002 AHS005 AMR    AMR003 Card   HPA01  HWPA1  HWPA1T IOA01  IOA01T IPA011 IPA012 IPA013 IPA014 IPACC3 IPACC4 IPACC5
19408  12215  34184  12226  19408  12215  19408   7344   9198    405   9198    405  12215   5137   1148   2853  31703   9198   7878
IPACC6 IPAR   IPAR2  IPARK2 IPARKI NAHI   NAHI2  NAMR   NAMR2  NCC2   NCC5   NCC5T  NNAHI  NNAHI2 NNAMR  NNAMR2 PL     PL2    SPA
9668  41909   9643   2362   2967  10018   3589  10018   3589   7878   2845    536  14776   8104  14754   8118  18624   8302  40856
SPA3
6823

最佳答案

您可以在基数R中使用merge:

DT2 <- (merge(DT1, DT2, by = 'code'))

注意:还将按'code'列对其进行排序。

您还可以使用plyr包:
DT2 <- plyr::join(DT2, DT1, by = "code")

当您对使用data.table包感兴趣时:
library(data.table)
DT2 <- data.table(DT2, key='code')
DT1 <- data.table(DT1, key='code')

DT2[DT1]

qdap包:
DT2$type <- qdap::lookup(DT2$code, DT1)

07-24 09:52
查看更多