我有一个SNP文件,我想计算每列中有多少个。从列表写入表时,它显示错误,因为“参数暗示行数不同”。我想要一个解决方案,以便可以将列表写到表中。
请帮我。
输入文件:image file is added
输入文件包含830行和210列
#1 R代码

require(gdata)
library(plyr)
df = read.xls ("jTest_file.xlsx", sheet = 1, header = TRUE)
combine = c()
for(i in 1:v){
    vec = count(df[,i])
    colnames(vec) <- c (colnames(df[i]),"freq")
    combine = c(combine,vec)
}
write.table(combine,file="test_output.xls",sep="\t",quote=FALSE,row.names =FALSE)

但是输入中有一些空白值,所以我用XX代替了空白,以便可以保留行号,但行不通。
#2 R代码
require(gdata)
library(plyr)
df = read.xls ("jTest_file.xlsx", sheet = 1, header = TRUE)
combine = c()
for(i in 1:v){
    data=sub("^$", "XX", df[,i])
    vec = count(data)
    colnames(vec) <- c (colnames(df[i]),"freq")
    combine = c(combine,vec)
}
write.table(combine,file="test_output.xls",sep="\t",quote=FALSE,row.names =FALSE)

最佳答案

使用dplyrtidyr软件包有一种更干净的方法来进行这些计数。

由于您未提供示例数据,因此我将首先介绍一些示例数据:

#Make sample data
li = lapply(1:10, function(X) {
    sample(x = c("A", "C", "G", "T"), size = 10,
           replace = TRUE)
    })
df = data.frame(li, stringsAsFactors = FALSE)
names(df) = paste("X", 1:10, sep = "")

head(df, 3)
#   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
# 1  T  G  C  T  C  A  T  T  C   T
# 2  A  A  A  G  G  G  T  G  C   A
# 3  C  C  A  T  A  A  C  A  T   G

现在是实际的答案-计算:
library(tidyr)
library(dplyr)
df_long = gather(df, var, value)
df_groups = group_by(df_long, var, value)
df_counts = summarise(df_groups, count = n())
df_wide = spread(df_counts, value, count, fill = 0)

df_wide
# Source: local data frame [10 x 5]
# Groups: var [10]
#
#      var     A     C     G     T
# *  <chr> <dbl> <dbl> <dbl> <dbl>
# 1     X1     3     4     0     3
# 2    X10     5     0     2     3
# 3     X2     3     2     2     3
# 4     X3     4     3     1     2
# 5     X4     2     1     4     3
# 6     X5     2     3     3     2
# 7     X6     4     2     1     3
# 8     X7     2     4     2     2
# 9     X8     2     3     2     3
# 10    X9     2     2     2     4

我鼓励您探索各个步骤(df_longdf_groupsdf_countsdf_wide)。这将使您对数据的处理情况有所了解。

10-01 20:11