是否有熊猫内置的方法将两个不同的聚合函数f1, f2应用于同一列df["returns"],而不必多次调用agg()

示例数据框:

import pandas as pd
import datetime as dt

pd.np.random.seed(0)
df = pd.DataFrame({
         "date"    :  [dt.date(2012, x, 1) for x in range(1, 11)],
         "returns" :  0.05 * np.random.randn(10),
         "dummy"   :  np.repeat(1, 10)
})


语法上错误但直观上正确的方法是:

# Assume `f1` and `f2` are defined for aggregating.
df.groupby("dummy").agg({"returns": f1, "returns": f2})


显然,Python不允许重复的键。还有其他方式可以表达对agg()的输入吗?也许元组[(column, function)]的列表会更好,以允许将多个函数应用于同一列?但是agg()似乎只接受字典。

除了定义仅在其中应用两个功能的辅助功能之外,是否还有其他解决方法? (无论如何,这如何与聚合一起使用?)

最佳答案

您可以简单地将函数作为列表传递:

In [20]: df.groupby("dummy").agg({"returns": [np.mean, np.sum]})
Out[20]:
           mean       sum
dummy
1      0.036901  0.369012


或作为字典:

In [21]: df.groupby('dummy').agg({'returns':
                                  {'Mean': np.mean, 'Sum': np.sum}})
Out[21]:
        returns
           Mean       Sum
dummy
1      0.036901  0.369012

关于python - 使用pandas GroupBy.agg()对同一列进行多次聚合,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59518461/

10-10 19:39