我有一个像这样的数据框:

df = pd.DataFrame({'year': [2018, 2018, 2018, 2018, 2018, 2018, 2019, 2019, 2019, 2019, 2019, 2019],
                   'label': ['A', 'B', 'C', 'A', 'B', 'D', 'A', 'E', 'F', 'G', 'E', 'E'],
                   'cat' : [236, 546, 671, 555, 871, 229, 811, 992, 227, 341, 701, 508],
                   'value': [2, 5, 6, 1, 9, 4, 7, 8, 13, 11, 3, 12]})


我想按yearlabel对其进行分组,并为每个分组返回具有value最小值的行。该行必须包括(原始)索引值以及所有列(来自df)。

因此,结果应为:

 3  2018  A  555   1
 1  2018  B  546   5
 2  2018  C  671   6
 5  2018  D  229   4
 6  2019  A  811   7
10  2019  E  701   3
 8  2019  F  227  13
 9  2019  G  341  11


到目前为止,我的代码:

df.groupby(by=['year', 'label']).min().reset_index()


这对于value具有正确的值,但对于cat没有正确的值。此外,(原始)索引也丢失了。

有什么建议如何解决这个问题?

最佳答案

您可以使用idxmin()

df.loc[df.groupby(['year','label']).value.idxmin()]


输出:

    year label  cat  value
3   2018     A  555      1
1   2018     B  546      5
2   2018     C  671      6
5   2018     D  229      4
6   2019     A  811      7
10  2019     E  701      3
8   2019     F  227     13
9   2019     G  341     11

关于python - 带有min函数的python Pandas groupby聚合,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56655371/

10-12 20:10