我有一个熊猫数据框,看起来像这样:

     UNIT        MACHINE
1    a100        001
2    a100        002
3    a100        003
4    a100        001
5    b222        001
6    b222        002
7    b222        002
8    b222        003

我想基于“UNIT”对它进行分组,并删除没有[001,002,003]“MACHINE”序列的行。这意味着,因为单元“a100”具有序列[001、002、003、001],所以应该删除该序列,但单元“b222”仍然存在,因为无论机器002是否重复,序列都是正确的。
输出应该如下所示:
     UNIT        MACHINE
5    b222        001
6    b222        002
7    b222        002
8    b222        003

序列[001,002,003]是我在这里作为示例编写的可接受的机器序列之一。有几个这样的序列,它们都是单调递增的。
我应该如何组合GroupBy和drop来执行此操作?

最佳答案

In [26]: chk_set = set(df.MACHINE.unique())

In [27]: df[df.groupby('UNIT')['MACHINE']
              .transform(lambda x: x.is_monotonic_increasing & chk_set.issubset(set(x)))]
Out[27]:
   UNIT MACHINE
5  b222     001
6  b222     002
7  b222     002
8  b222     003

更新:
假设您有以下DF:
In [90]: df
Out[90]:
    UNIT MACHINE
1   a100     001
2   a100     002
3   a100     003
4   a100     001
5   b222     001
6   b222     002
7   b222     002
8   b222     003
9     c1     001
10    c1     003
11    c2     078
12    c2     079
13    c2     080
14    c3     078
16    c3     080

以及要检查的连接组数组:
In [91]: chk_groups = np.array(['001002003','078079080'])

解决方案:
In [92]: df[df.groupby('UNIT')['MACHINE']
              .transform(lambda x: x.is_monotonic_increasing
                                   & np.in1d(x.unique().sum(),chk_groups))]
Out[92]:
    UNIT MACHINE
5   b222     001
6   b222     002
7   b222     002
8   b222     003
11    c2     078
12    c2     079
13    c2     080

关于python - 按一列对Pandas数据框进行分组,然后根据另一列删除行,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48260848/

10-13 07:34