我有这个:

    Date value
0   1975     a
21  1975     b
1   1976     b
22  1976     c
3   1977     a
2   1977     b
4   1978     c
25  1978     d
5   1979     e
26  1979     f
6   1980     a
27  1980     f

我很难找到只保留包含第一个“值”出现的行的方法我要删除重复的“值”,使行保持最低的“日期”。最终结果应为:
    Date value
0   1975     a
21  1975     b
22  1976     c
25  1978     d
5   1979     e
26  1979     f

最佳答案

为了更清楚地说明quazi发布了什么:drop_duplicates()是您需要的。默认情况下,它会保留第一次发生,然后删除所有内容-查看the manual以获取更多信息。所以,可以肯定的是,你应该

>>> dataframe = oldDf.sort('Date').drop_duplicates(subset=['value'])
>>> dataframe
Out[490]:
    Date value
0   1975     a
21  1975     b
22  1976     c
25  1978     d
5   1979     e
26  1979     f

08-19 21:27