我有一个熊猫数据框
col1 col2
40647 1433,1433,1433,1454,1454,1433
40648 1458,1458,1458,1458,67,67
40649 866,866,866,866,866,866
40650 798,798,798,798,798,798,798,798
我只想在col2中保留唯一条目,所以理想的结果是
col1 col2
40647 1433,1454
40648 1458,67
40649 866
40650 798
我该如何实现?
最佳答案
一个简单的示例:
col1 col2
0 40647 12, 25
1 40648 13, 25
2 40649 12,12
3 40650 12,12,12
您可以尝试:
df.loc[:, 'col2'] = df.loc[:, 'col2'].str.split(',').apply(lambda x: [i.strip() for i in x])
df.loc[:, 'col2'] = df.loc[:, 'col2'].apply(lambda x: list(set(x))]
并得到
col1 col2
0 40647 [12, 25]
1 40648 [13, 25]
2 40649 [12]
3 40650 [12]
关于python - 如何删除重复的条目,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34030474/