我正在尝试根据不同列上的最大值从数据框中删除重复的行

因此,对于数据框:

df<-data.frame (rbind(c("a",2,3),c("a",3,4),c("a",3,5),c("b",1,3),c("b",2,6),c("r",4,5))
  colnames(df)<-c("id","val1","val2")

id val1 val2

  a    2    3

  a    3    4

  a    3    5

  b    1    3

  b    2    6

  r    4    5

我想通过 id 删除所有重复项,条件是对于相应的行,它们没有 val2 的最大值。

因此数据框应该变成:
  a    3    5

  b    2    6

  r    4    5

-> 删除所有重复项,但保留 df$val2 的最大值为subset(df, df$id=="a") 的行

最佳答案

使用 base R 。这里,列是 factors 。确保将其转换为 numeric

 df$val2 <- as.numeric(as.character(df$val2))
 df[with(df, ave(val2, id, FUN=max)==val2),]
 #  id val1 val2
 #3  a    3    5
 #5  b    2    6
 #6  r    4    5

或者使用 dplyr
 library(dplyr)
 df %>%
    group_by(id) %>%
    filter(val2==max(val2))
 #   id val1 val2
 #1  a    3    5
 #2  b    2    6
 #3  r    4    5

关于根据第二列条件删除重复项,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/25962909/

10-12 17:54