我有一个包含 5 个时间列(第 1 年、第 y 年等)的数据框,对于某些行,我在非缺失值之间有 NA。示例如下:

df = structure(list(FirstYStage = c(NA, 3.2, 3.1, NA, NA, 2, 1, 3.2,
3.1, 1, 2, 5, 2, NA, NA, NA, NA, 2, 3.1, 1), SecondYStage = c(NA,
3.1, 3.1, NA, NA, 2, 1, 4, 3.1, 1, NA, 5, 3.1, 3.2, 2, 3.1, NA,
2, 3.1, 1), ThirdYStage = c(NA, NA, 3.1, NA, NA, 3.2, 1, 4, NA,
1, NA, NA, 3.2, NA, 2, 3.2, NA, NA, 2, 1), FourthYStage = c(NA,
NA, 3.1, NA, NA, NA, 1, 4, NA, 1, NA, NA, NA, 4, 2, NA, NA, NA,
2, 1), FifthYStage = c(NA, NA, 2, NA, NA, NA, 1, 5, NA, NA, NA,
NA, 3.2, NA, 2, 3.2, NA, NA, 2, 1)), class = c("tbl_df", "tbl",
"data.frame"), row.names = c(NA, -20L))

我想使用 dplyr 计算在非缺失值之间具有缺失值的行数。第 13、14 和 16 行就是这样的例子。

我怎样才能做到这一点?我有一种感觉,这与 paste 整行并查看 NA 的左侧和右侧有关......但不清楚如何进行此操作。

最佳答案

sum(grepl("[[:digit:]]+[NA]+[[:digit:]]", apply(df, 1, paste, collapse = "")))

[1] 3

简而言之:
  • 连接行
  • 检查哪些行返回 TRUE 以匹配字符串:“number-NA-number”(在这种情况下,行 131416 )
  • 对求值为 TRUE
  • 的行求和

    根据@Sotos 评论,这更好,因为它阻止我们将 applymargin = 1 一起使用:
    sum(grepl("[[:digit:]]+[NA]+[[:digit:]]", do.call(paste0, df)))
    

    关于r - 计数 NA 出现在非缺失值之间,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56490797/

    10-12 20:37