我有一个简单的初始数据框:

ID, ATTRIBUTE
1, thing2
1, thing3
1, thing3
2, thing7
2, thing7
2, thing2
3, thing1
3, thing2


我有一个简单的groupby对象,我想在这里获取ATTRIBUTE的模式(如果它是多模式的,我称结果为“ multithing”):

mode = lambda x: x.mode() if len(x) > 2 else 'multithing'
df_grouped = df.groupby(['ID'], as_index=False)['ATTRIBUTE].agg(mode)


我试图重新索引后看起来像这样的结果:

ID, ATTRIBUTE
1, thing3
2, thing7
3, multithing


因此,我可以像常规数据框一样再次使用它,并执行以下操作:

df_final.groupby('ATTRIBUTE')['ID'].count()

最佳答案

IIUC:

In [203]: df.groupby('ID')['ATTRIBUTE'] \
            .agg(lambda x: x.mode()[0] if len(x.mode()) == 1 else 'multithing')
Out[203]:
ID
1        thing3
2        thing7
3    multithing
Name: ATTRIBUTE, dtype: object


要么

In [205]: df.groupby('ID', as_index=False)['ATTRIBUTE'] \
     ...:   .agg(lambda x: x.mode()[0] if len(x.mode()) == 1 else 'multithing')
Out[205]:
   ID   ATTRIBUTE
0   1      thing3
1   2      thing7
2   3  multithing

关于python - Python PANDAS:将DataFrameGroupBy对象重新索引为Dataframe错误,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46819820/

10-12 22:04