下面有一个dataframe表,其中包含新值和旧值。我想在保留新值的同时放弃所有旧值。

ID    Name     Time    Comment
0     Foo   12:17:37   Rand
1     Foo   12:17:37   Rand1
2     Foo   08:20:00   Rand2
3     Foo   08:20:00   Rand3
4     Bar   09:01:00   Rand4
5     Bar   09:01:00   Rand5
6     Bar   08:50:50   Rand6
7     Bar   08:50:00   Rand7

因此它应该是这样的:
ID    Name     Time    Comment
0     Foo   12:17:37   Rand
1     Foo   12:17:37   Rand1
4     Bar   09:01:00   Rand4
5     Bar   09:01:00   Rand5

我试图使用下面的代码,但这将删除1个新值和1个旧值。
df[~df[['Time', 'Comment']].duplicated(keep='first')]

有人能提供正确的解决方案吗?

最佳答案

如果需要按列to_timedelta的最大值筛选,我认为您可以将此解决方案与Time一起使用:

df.Time = pd.to_timedelta(df.Time)
df = df[df.Time == df.Time.max()]
print (df)
   ID Name     Time Comment
0   0  Foo 12:17:37    Rand
1   1  Foo 12:17:37   Rand1

编辑后的解决方案类似,只添加了groupby
df = df.groupby('Name', sort=False)
       .apply(lambda x: x[x.Time == x.Time.max()])
       .reset_index(drop=True)
print (df)
   ID Name     Time Comment
0   0  Foo 12:17:37    Rand
1   1  Foo 12:17:37   Rand1
2   4  Bar 09:01:00   Rand4
3   5  Bar 09:01:00   Rand5

关于python - 保留最新值并删除较旧的行( Pandas ),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41564503/

10-09 17:15