我有一个df,其中包含[CPF,名称,年龄]列。
我需要找到在基础上重复的CPF,并将此人的姓名与CPF一起返回。
到目前为止,我已经做到了。

    TrueDuplicat = base.groupby(['CPF']).size().reset_index(name='count')
    TrueDuplicat = TrueDuplicat[TrueDuplicat['count']>1]


当我放:

    TrueDuplicat = TrueDuplicat[['name','CPF']]


我收到错误“ [['name']不在索引中”。

如何获得带有该人姓名的重复CPF?

DF范例

CPF         name  age

38445675455  Alex  15

54785698574  Ana   25

38445675455  Bento 22

65878584558  Caio  33

最佳答案

groupby之后,在name中没有TrueDuplicat列。对于您发布的示例,TrueDuplicat为:

           CPF  count
0  38445675455      2


如果要在TrueDuplicat中查找与CPF值相对应的名称,则可以执行以下操作

df[df['CPF'].isin(TrueDuplicat['CPF'].tolist())]


例如,这将产生

           CPF   name  age
0  38445675455   Alex   15
2  38445675455  Bento   22

关于python - 信息重复,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51266778/

10-11 23:49