在我的问题中,我有 2 个数据帧 mydataframe1
和 mydataframe2
,如下所示。
mydataframe1
Out[13]:
Start End Remove
50 60 1
61 105 0
106 150 1
151 160 0
161 180 1
181 200 0
201 400 1
mydataframe2
Out[14]:
Start End
55 100
105 140
151 154
155 185
220 240
从
mydataframe2
我想删除区间 Start-End 包含(也部分)在 "Remove"
中的任何 mydataframe1
=1 区间的行。换句话说,mydataframe2
的区间和 mydataframe1
中的每个区间之间不应该有任何中间部分在这种情况下 mydataframe2 变成
mydataframe2
Out[15]:
Start End
151 154
最佳答案
您可以将 pd.IntervalIndex
用于交叉路口
获取要删除的行
In [313]: dfr = df1.query('Remove == 1')
从要删除的范围构造 IntervalIndex
In [314]: s1 = pd.IntervalIndex.from_arrays(dfr.Start, dfr.End, 'both')
构造 IntervalIndex 以进行测试
In [315]: s2 = pd.IntervalIndex.from_arrays(df2.Start, df2.End, 'both')
选择不在 s1 范围内的 s2 行
In [316]: df2.loc[[x not in s1 for x in s2]]
Out[316]:
Start End
2 151 154
细节
In [320]: df1
Out[320]:
Start End Remove
0 50 60 1
1 61 105 0
2 106 150 1
3 151 160 0
4 161 180 1
5 181 200 0
6 201 400 1
In [321]: df2
Out[321]:
Start End
0 55 100
1 105 140
2 151 154
3 155 185
4 220 240
In [322]: dfr
Out[322]:
Start End Remove
0 50 60 1
2 106 150 1
4 161 180 1
6 201 400 1
间隔指数详情
In [323]: s1
Out[323]:
IntervalIndex([[50, 60], [106, 150], [161, 180], [201, 400]]
closed='both',
dtype='interval[int64]')
In [324]: s2
Out[324]:
IntervalIndex([[55, 100], [105, 140], [151, 154], [155, 185], [220, 240]]
closed='both',
dtype='interval[int64]')
In [326]: [x not in s1 for x in s2]
Out[326]: [False, False, True, False, False]
关于python - 交叉路口 2 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45693330/