我想知道是否有人可以使用agg()来解释以下行为
import numpy as np
import pandas as pd
import string
初始化数据框
df = pd.DataFrame(data=[list(string.ascii_lowercase)[0:5]*2,list(range(1,11)),list(range(11,21))]).T
df.columns = columns=['g','c1','c2']
df.sort_values(['g']).head(5)
g c1 c2
0 a 1 11
5 a 6 16
1 b 2 12
6 b 7 17
2 c 3 13
例如,我在对c1和c2求和并求平均值时,按g进行分组
没有数据错误的情况:
f = { 'c1' : lambda g: df.loc[g.index].c2.sum() + g.sum(), 'c2' : lambda g: (df.loc[g.index].c1.sum() + g.sum())/(g.count()+df.loc[g.index].c1.count())}
df = df.groupby('g',as_index=False).agg(f)
数据类型错误:
rnm_cols = dict(sum='Sum', mean='Mean') #, std='Std')
df = df.set_index(['g']).stack().groupby('g').agg(rnm_cols.keys()).rename(columns=rnm_cols)
我得到-> DataError:没有要聚合的数字类型
我知道如果使用以下方法初始化数据框,则可以避免此问题:
df[['c1','c2']] = df[['c1','c2']].apply(lambda x: pd.to_numeric(x, errors='coerce'))
最佳答案
这是由于GroupBy
对象处理不同聚合方法的方式引起的。实际上,sum
和mean
的处理方式有所不同(有关更多详细信息,请参见下文)。
但最重要的是,mean
仅适用于数据框中不存在的数字类型:
>>> df.dtypes
g object
c1 object
c2 object
dtype: object
通过应用
pd.to_numeric
,您可以将它们转换为数字类型,并且agg
可以工作。但是,让我们仔细看看:
GroupBy.mean
此函数调用分派(dispatch)给
self._cython_agg_general
,后者检查数字类型,如果未找到任何数字类型(在您的示例中就是这种情况),它将引发 DataError
。尽管对self._cython_agg_general
的调用在try/except
的情况下包装在GroupByError
中,但它只是重新引发,并且DataError
继承自GroupByError
。因此异常(exception)。GroupBy.sum
该函数以不同的方式定义,即here(通过this function)。 wrapper function类似地分派(dispatch)给
self._cython_agg_general
,并包装在try/except
中,但它没有为GroupByError
添加特定子句(不知道为什么;不过这对开发人员来说是个好问题,因此他们可以统一GroupBy
对象的行为)。因为self._cython_agg_general
再次提高了DataError
,所以它将输入 except Exception
子句,该子句将回落到 self.aggregate
。在这里,您可以通过许多其他函数调用来跟踪它,但是最后,它将仅添加该系列的单个项目(将其存储为object
,但是添加到Python中也没有问题,因为它们实际上是int
) 。概括
因此,这归结为两个聚合函数处理异常的不同方式。
mean
在DataError
上重新提高,但sum
没有。对我来说,“为什么”仍然是一个悬而未决的问题。也可以看看
关于python - DataError : No numeric types using mean aggregate function but not sum?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50091321/