我有一个df,其中包含[CPF,名称,年龄]列。
我需要找到在基础上重复的CPF,并将此人的姓名与CPF一起返回。
到目前为止,我已经做到了。
TrueDuplicat = base.groupby(['CPF']).size().reset_index(name='count')
TrueDuplicat = TrueDuplicat[TrueDuplicat['count']>1]
当我放:
TrueDuplicat = TrueDuplicat[['name','CPF']]
我收到错误“ [['name']不在索引中”。
如何获得带有该人姓名的重复CPF?
DF范例
CPF name age
38445675455 Alex 15
54785698574 Ana 25
38445675455 Bento 22
65878584558 Caio 33
最佳答案
groupby
之后,在name
中没有TrueDuplicat
列。对于您发布的示例,TrueDuplicat
为:
CPF count
0 38445675455 2
如果要在
TrueDuplicat
中查找与CPF值相对应的名称,则可以执行以下操作df[df['CPF'].isin(TrueDuplicat['CPF'].tolist())]
例如,这将产生
CPF name age
0 38445675455 Alex 15
2 38445675455 Bento 22
关于python - 信息重复,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51266778/