最初,我使用我编写的一个简短的 C# 程序来平均一些数字。但现在我想做更广泛的分析,所以我将我的 C# 代码转换为 R。但是,我真的不认为我在 R 中以正确的方式或利用了该语言。我以与 C# 完全相同的方式编写 R。
我有一个包含两列的 CSV。第一列标识行的类型(三个值之一:C、E 或 P),第二列有一个数字。我想对按类型(C、E 或 P)分组的数字求平均值。
我的问题是, 在 R 中这样做的惯用方法是什么?
C#代码:
string path = "data.csv";
string[] lines = File.ReadAllLines(path);
int cntC = 0; int cntE = 0; int cntP = 0; //counts
double totC = 0; double totE = 0; double totP = 0; //totals
foreach (string line in lines)
{
String[] cells = line.Split(',');
if (cells[1] == "NA") continue; //skip missing data
if (cells[0] == "C")
{
totC += Convert.ToDouble(cells[1]);
cntC++;
}
else if (cells[0] == "E")
{
totE += Convert.ToDouble(cells[1]);
cntE++;
}
else if (cells[0] == "P")
{
totP += Convert.ToDouble(cells[1]);
cntP++;
}
}
Console.WriteLine("C found " + cntC + " times with a total of " + totC + " and an average of " + totC / cntC);
Console.WriteLine("E found " + cntE + " times with a total of " + totE + " and an average of " + totE / cntE);
Console.WriteLine("P found " + cntP + " times with a total of " + totP + " and an average of " + totP / cntP);
代码:
dat = read.csv("data.csv", header = TRUE)
cntC = 0; cntE = 0; cntP = 0 # counts
totC = 0; totE = 0; totP = 0 # totals
for(i in 1:nrow(dat))
{
if(is.na(dat[i,2])) # missing data
next
if(dat[i,1] == "C"){
totC = totC + dat[i,2]
cntC = cntC + 1
}
if(dat[i,1] == "E"){
totE = totE + dat[i,2]
cntE = cntE + 1
}
if(dat[i,1] == "P"){
totP = totP + dat[i,2]
cntP = cntP + 1
}
}
sprintf("C found %d times with a total of %f and an average of %f", cntC, totC, (totC / cntC))
sprintf("E found %d times with a total of %f and an average of %f", cntE, totE, (totE / cntE))
sprintf("P found %d times with a total of %f and an average of %f", cntP, totP, (totP / cntP))
最佳答案
我会做这样的事情:
dat = dat[complete.cases(dat),] ## The R way to remove missing data
dat[,2] <- as.numeric(dat[,2]) ## convert to numeric as you do in c#
by(dat[,2],dat[,1],mean) ## compute the mean by group
当然,要将结果聚合到 data.frame 中,您可以使用经典的,但我认为这里没有必要,因为它是 3 个变量的列表:
do.call(rbind,result)
编辑1
这里的另一个选择是使用优雅的
ave
:ave(dat[,2],dat[,1])
但是这里的结果是不同的。从某种意义上说,您将获得与原始数据长度相同的向量。
EDIT2 要包含更多结果,您可以详细说明匿名函数:
by(dat[,2],dat[,1],function(x) c(min(x),max(x),mean(x),sd(x)))
或者返回
data.frame
更适合 rbind
调用和列名:by(dat[,2],dat[,1],function(x)
data.frame(min=min(x),max=max(x),mean=mean(x),sd=sd(x)))
或者使用优雅的内置函数(你也可以定义你的)
summary
:by(dat[,2],dat[,1],summary)
关于c# - 将 C# 转换为惯用的 R,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/18068083/