我有一个熊猫数据框

col1                 col2
40647                1433,1433,1433,1454,1454,1433
40648                1458,1458,1458,1458,67,67
40649                866,866,866,866,866,866
40650                798,798,798,798,798,798,798,798


我只想在col2中保留唯一条目,所以理想的结果是

col1                 col2
40647                1433,1454
40648                1458,67
40649                866
40650                798


我该如何实现?

最佳答案

一个简单的示例:

    col1      col2
0  40647    12, 25
1  40648    13, 25
2  40649     12,12
3  40650  12,12,12


您可以尝试:

df.loc[:, 'col2'] = df.loc[:, 'col2'].str.split(',').apply(lambda x: [i.strip() for i in x])
df.loc[:, 'col2'] = df.loc[:, 'col2'].apply(lambda x: list(set(x))]


并得到

    col1      col2
0  40647  [12, 25]
1  40648  [13, 25]
2  40649      [12]
3  40650      [12]

关于python - 如何删除重复的条目,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34030474/

10-12 14:12