我有这个:
Date value
0 1975 a
21 1975 b
1 1976 b
22 1976 c
3 1977 a
2 1977 b
4 1978 c
25 1978 d
5 1979 e
26 1979 f
6 1980 a
27 1980 f
我很难找到只保留包含第一个“值”出现的行的方法我要删除重复的“值”,使行保持最低的“日期”。最终结果应为:
Date value
0 1975 a
21 1975 b
22 1976 c
25 1978 d
5 1979 e
26 1979 f
最佳答案
为了更清楚地说明quazi发布了什么:drop_duplicates()
是您需要的。默认情况下,它会保留第一次发生,然后删除所有内容-查看the manual以获取更多信息。所以,可以肯定的是,你应该
>>> dataframe = oldDf.sort('Date').drop_duplicates(subset=['value'])
>>> dataframe
Out[490]:
Date value
0 1975 a
21 1975 b
22 1976 c
25 1978 d
5 1979 e
26 1979 f