在我的问题中,我有 2 个数据帧 mydataframe1mydataframe2,如下所示。

mydataframe1
Out[13]:
  Start   End       Remove
  50      60        1
  61      105       0
  106     150       1
  151     160       0
  161     180       1
  181     200       0
  201     400       1


mydataframe2
Out[14]:
    Start   End
    55      100
    105     140
    151     154
    155     185
    220     240

mydataframe2 我想删除区间 Start-End 包含(也部分)在 "Remove" 中的任何 mydataframe1 =1 区间的行。换句话说,mydataframe2 的区间和 mydataframe1 中的每个区间之间不应该有任何中间部分

在这种情况下 mydataframe2 变成
mydataframe2
Out[15]:
    Start   End
    151     154

最佳答案

您可以将 pd.IntervalIndex 用于交叉路口

获取要删除的行

In [313]: dfr = df1.query('Remove == 1')

从要删除的范围构造 IntervalIndex
In [314]: s1 = pd.IntervalIndex.from_arrays(dfr.Start, dfr.End, 'both')

构造 IntervalIndex 以进行测试
In [315]: s2 = pd.IntervalIndex.from_arrays(df2.Start, df2.End, 'both')

选择不在 s1 范围内的 s2 行
In [316]: df2.loc[[x not in s1 for x in s2]]
Out[316]:
   Start  End
2    151  154

细节
In [320]: df1
Out[320]:
   Start  End  Remove
0     50   60       1
1     61  105       0
2    106  150       1
3    151  160       0
4    161  180       1
5    181  200       0
6    201  400       1

In [321]: df2
Out[321]:
   Start  End
0     55  100
1    105  140
2    151  154
3    155  185
4    220  240

In [322]: dfr
Out[322]:
   Start  End  Remove
0     50   60       1
2    106  150       1
4    161  180       1
6    201  400       1

间隔指数详情
In [323]: s1
Out[323]:
IntervalIndex([[50, 60], [106, 150], [161, 180], [201, 400]]
              closed='both',
              dtype='interval[int64]')

In [324]: s2
Out[324]:
IntervalIndex([[55, 100], [105, 140], [151, 154], [155, 185], [220, 240]]
              closed='both',
              dtype='interval[int64]')

In [326]: [x not in s1 for x in s2]
Out[326]: [False, False, True, False, False]

关于python - 交叉路口 2 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45693330/

10-12 18:43