我需要为R中的几列按组计算变量的所有级别的频率。我有几列的数据框,包括一个分组变量。其他列具有3个级别-0、1和NA。
这就是我所拥有的:
# a b c d group
1 1 1 1 NA 1
2 1 0 1 0 1
3 0 0 NA 1 1
4 0 NA 1 0 2
5 1 1 0 0 2
6 1 0 0 1 2
7 NA 0 1 NA 2
这就是我需要的:
group level a b c d
1 0 1 2 0 1
1 2 1 2 1
NA 0 0 1 1
2 0 1 2 2 2
1 2 1 2 1
NA 1 1 0 1
我用dplyr和lapply解决了这个问题。
我试过了
df %>%
mutate(a = factor(a, levels=0:1)) %>%
group_by(group, a) %>%
summarise(freq=n()) %>%
complete(a, fill=list(freq=0))
这可以得到我想要的,但是我必须在每一列中都要做。
我也试过
lapply(df[(2:70)], table)
这让我知道了频率,但不是按组。
我基本上需要以某种方式结合这两段代码。我需要能够将这两段代码结合起来。
最佳答案
dplyr
和tidyr
的一种可能是:
df %>%
gather(var, level, -group) %>%
group_by(group, var, level) %>%
summarise(val = n()) %>%
spread(var, val, fill = 0)
group level a b c d
<int> <int> <dbl> <dbl> <dbl> <dbl>
1 1 0 1 2 0 1
2 1 1 2 1 2 1
3 1 NA 0 0 1 1
4 2 0 1 2 2 2
5 2 1 2 1 2 1
6 2 NA 1 1 0 1
关于r - r通过几列的子组计算所有因子水平的频率,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57680325/