我需要为R中的几列按组计算变量的所有级别的频率。我有几列的数据框,包括一个分组变量。其他列具有3个级别-0、1和NA。

这就是我所拥有的:

#     a     b     c     d   group
1     1     1     1     NA    1
2     1     0     1     0     1
3     0     0     NA    1     1
4     0     NA    1     0     2
5     1     1     0     0     2
6     1     0     0     1     2
7     NA    0     1     NA    2


这就是我需要的:

group   level   a   b   c   d
1   0   1   2   0   1
    1   2   1   2   1
    NA  0   0   1   1
2   0   1   2   2   2
    1   2   1   2   1
    NA  1   1   0   1


我用dplyr和lapply解决了这个问题。

我试过了

df %>%
  mutate(a = factor(a, levels=0:1)) %>%
  group_by(group, a) %>%
  summarise(freq=n()) %>%
  complete(a, fill=list(freq=0))


这可以得到我想要的,但是我必须在每一列中都要做。

我也试过

lapply(df[(2:70)],  table)


这让我知道了频率,但不是按组。

我基本上需要以某种方式结合这两段代码。我需要能够将这两段代码结合起来。

最佳答案

dplyrtidyr的一种可能是:

df %>%
 gather(var, level, -group) %>%
 group_by(group, var, level) %>%
 summarise(val = n()) %>%
 spread(var, val, fill = 0)

  group level     a     b     c     d
  <int> <int> <dbl> <dbl> <dbl> <dbl>
1     1     0     1     2     0     1
2     1     1     2     1     2     1
3     1    NA     0     0     1     1
4     2     0     1     2     2     2
5     2     1     2     1     2     1
6     2    NA     1     1     0     1

关于r - r通过几列的子组计算所有因子水平的频率,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57680325/

10-11 22:35
查看更多