我正试图使用GroupBy创建一个新的数据框架,但我需要多索引保持一致。无论子类别是否存在,我都希望按以下方式创建它:

import pandas as pd

df = pd.DataFrame(
    {'Cat 1':['A','A','A','B','B','B','B','C','C','C','C','C','D'],
     'Cat 2':['A','B','A','B','B','B','A','B','B','B','B','B','A'],
     'Num':  [1,1,1,1,1,1,1,1,1,1,1,1,1]})
print df.groupby(['Cat 1','Cat 2']).sum()

输出如下:
             Num
Cat 1 Cat 2
A     A        2
      B        1
B     A        1
      B        3
C     B        5
D     A        1

但我希望它看起来像
             Num
Cat 1 Cat 2
A     A        2
      B        1
B     A        1
      B        3
C     A        Nan
      B        5
D     A        1
      B        Nan

我读取了不同的数据,然后以这种格式添加了一列,这样得到的数组看起来就像:
             Num        Num_added_later
Cat 1 Cat 2
A     A        2         12
      B        1         5
B     A        1         5
      B        3         3
C     A        Nan       5
      B        5         5
D     A        1         1
      B        Nan       3

最佳答案

您可以基于两个cat列创建一个新索引,并重新索引结果:

import pandas as pd
new_index = pd.MultiIndex.from_product([df["Cat 1"].unique(), df["Cat 2"].unique()], names = ["Cat 1", "Cat 2"])

df.groupby(['Cat 1','Cat 2']).sum().reindex(new_index)

python - Pandas Groupby即使是空的,也保持一致的水平-LMLPHP

07-26 01:47