我有一个数据集(mydata
),其中包含多个列,这些列可能适合存储在另一个数据集(mycomparison
)中的范围。
我想将mycomparison
加入到mydata
中,其中mydata
值在mycomparison
的范围内。
威斯康星州
library(data.table)
mydata<-data.table(
id=1:5,
val1=seq(10000, 50000, by=10000),
val2=floor(rnorm(5,mean=400,sd=100)),
val3=rnorm(5,mean=.7,sd=.1)
)
mycomparison<-data.table(
Name=LETTERS[1:3],
minval1=c(0,30000,10000),
maxval1=c(50000,80000,30000),
minval2=c(300,400,300),
maxval2=c(800,800,800),
minval3=c(0,.5,.2),
maxval3=c(1,.9,.8),
correspondingval=c(.1,.2,.3)
)
期望的输出
> mydata.withmatches
id val1 val2 val3 Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: 1 10000 387 0.4844319 A 0 50000 300 800 0 1 0.1
2: 2 20000 425 0.7856313 NA NA NA NA NA NA NA NA
3: 3 30000 324 0.8063969 NA NA NA NA NA NA NA NA
4: 4 40000 263 0.5590113 NA NA NA NA NA NA NA NA
5: 5 50000 187 0.8764396 NA NA NA NA NA NA NA NA
当前解决方案
这感觉很笨拙,涉及交叉连接数据(使用
optiRum::CJ.dt
),进行大的逻辑检查,然后重新组装数据。library(optiRum)
workingdt<-CJ.dt(mydata,mycomparison)
matched<-workingdt[val1>=minval1 &
val1<=maxval1 &
val2>=minval2 &
val2<=maxval2 &
val3>=minval3 &
val3<=maxval3][which.min(correspondingval)]
notmatched<-mydata[id!= matched[,id]]
all<-list(matched,notmatched)
mydata.withmatches<- rbindlist(all, fill=TRUE, use.names=TRUE)
寻找更好的解决方案-更新
我知道
foverlaps
,但是它将在单个时间间隔上工作,而不是在这种情况下的很多范围上工作。我希望有一个不那么笨拙和更优雅的解决方案。
最佳答案
我不完全理解您的所需的输出,因为多个ID与mycomparison
data.table匹配。使用数据(四舍五入到小数点后两位):
> mydata
id val1 val2 val3
1: 1 10000 387 0.48
2: 2 20000 425 0.79
3: 3 30000 324 0.81
4: 4 40000 263 0.56
5: 5 50000 187 0.88
和
> mycomparison
Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: A 0 50000 300 800 0.0 1.0 0.1
2: B 30000 80000 400 800 0.5 0.9 0.2
3: C 10000 30000 300 800 0.2 0.8 0.3
这给出了:
> workingdt
id val1 val2 val3 Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: 1 10000 387 0.48 A 0 50000 300 800 0.0 1.0 0.1
2: 2 20000 425 0.79 A 0 50000 300 800 0.0 1.0 0.1
3: 3 30000 324 0.81 A 0 50000 300 800 0.0 1.0 0.1
4: 4 40000 263 0.56 A 0 50000 300 800 0.0 1.0 0.1
5: 5 50000 187 0.88 A 0 50000 300 800 0.0 1.0 0.1
6: 1 10000 387 0.48 B 30000 80000 400 800 0.5 0.9 0.2
7: 2 20000 425 0.79 B 30000 80000 400 800 0.5 0.9 0.2
8: 3 30000 324 0.81 B 30000 80000 400 800 0.5 0.9 0.2
9: 4 40000 263 0.56 B 30000 80000 400 800 0.5 0.9 0.2
10: 5 50000 187 0.88 B 30000 80000 400 800 0.5 0.9 0.2
11: 1 10000 387 0.48 C 10000 30000 300 800 0.2 0.8 0.3
12: 2 20000 425 0.79 C 10000 30000 300 800 0.2 0.8 0.3
13: 3 30000 324 0.81 C 10000 30000 300 800 0.2 0.8 0.3
14: 4 40000 263 0.56 C 10000 30000 300 800 0.2 0.8 0.3
15: 5 50000 187 0.88 C 10000 30000 300 800 0.2 0.8 0.3
并省略您的
which.min()
:> workingdt[val1>=minval1 & val1<= maxval1 & val2>=minval2 &
val2<=maxval2 & val3>=minval3 & val3<=maxval3]
id val1 val2 val3 Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: 1 10000 387 0.48 A 0 50000 300 800 0.0 1.0 0.1
2: 2 20000 425 0.79 A 0 50000 300 800 0.0 1.0 0.1
3: 3 30000 324 0.81 A 0 50000 300 800 0.0 1.0 0.1
4: 1 10000 387 0.48 C 10000 30000 300 800 0.2 0.8 0.3
5: 2 20000 425 0.79 C 10000 30000 300 800 0.2 0.8 0.3
如果您使用data.table分组依据功能,则可以为每个
min(correspondingval)
选择id
(我暂时忽略了不匹配的数据):> workingdt[val1>=minval1 & val1<= maxval1 & val2>=minval2 &
val2<=maxval2 & val3>=minval3 & val3<=maxval3]
[,.SD[which.min(correspondingval)], by=id]
id val1 val2 val3 Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: 1 10000 387 0.48 A 0 50000 300 800 0 1 0.1
2: 2 20000 425 0.79 A 0 50000 300 800 0 1 0.1
3: 3 30000 324 0.81 A 0 50000 300 800 0 1 0.1
或者,如果您愿意,则使用
max(correspondingval)
:> workingdt[val1>=minval1 & val1<= maxval1 & val2>=minval2 &
val2<=maxval2 & val3>=minval3 & val3<=maxval3]
[,.SD[which.max(correspondingval)], by=id]
id val1 val2 val3 Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: 1 10000 387 0.48 C 10000 30000 300 800 0.2 0.8 0.3
2: 2 20000 425 0.79 C 10000 30000 300 800 0.2 0.8 0.3
3: 3 30000 324 0.81 A 0 50000 300 800 0.0 1.0 0.1
如果您想要的所有内容(如所需的输出中所示)是具有最小
correspondingval
的第一行,而其他所有具有NA
的其他行,则有更简单的方法来实现。如果您想知道每个id
与某个范围匹配的位置(如我在输出中所示),那么更简洁,更优雅的解决方案就不同了。让我知道。
关于r - 如何识别多列重叠,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/28540466/