我有一个数据框1488 obs。和400变我试图记录表中的所有值,然后将包离群值与rm.outlier命令一起使用,我想删除这些离群值。唯一的问题是我收到此错误:

Error in data.frame(V1 = c(-0.886056647693163, -0.677780705266081, -1.15490195998574,  : arguments imply differing number of rows: 1487, 1480, 1481, 1475, 1479, 1478, 1483, 1485, 1484, 1477, 1482, 1469

这是我的代码:
datalog <- matrix(0,nrow(data),ncol(data))
datalog[,] <- apply(data,2,log10)
datalog[datalog==-Inf] <- 0
datalog <- as.data.frame(datalog, stringsAsFactors=F)

testNoOutliers <- rm.outlier(datalog, fill = FALSE,
                         median = FALSE, opposite = FALSE)

我的资料:
https://skydrive.live.com/redir?resid=CEC7696F3B5BFBC6!341&authkey=!APiwy6qasD3-yGo

谢谢你的帮助

最佳答案

之所以会出现此错误,是因为从每一列中删除了不同数量的离群值,因此无法将列放到一个数据帧中。

如果您要用NA替换离群值,一种解决方案是

out.rem<-function(x) {
  x[which(x==outlier(x))]=NA
  x
}

apply(datalog,2,out.rem)

要删除包含离群值的整个行,可以在@agstudy解决方案中添加其他行
ll <- apply(datalog,2,function(x) which(x == outlier(x)))
new.datalog <- datalog[-unique(unlist(ll)),]

09-25 20:45