我目前正在使用rpart程序包将回归树拟合到具有相对较少观察值且数千个类别预测变量采用两个可能值的数据。

通过在较小的数据上测试包,我知道在这种情况下,我是否将回归变量声明为分类变量(即因子)还是将它们保持原样(它们被编码为+/- 1)都没有关系。

但是,我仍然想理解为什么将我的解释变量作为因素传递会显着降低算法速度(尤其是因为我将很快获得新数据,其中响应采用3个不同的值并将它们视为连续的将不再是一种选择)。当然应该反过来吗?

这是一个模拟我的数据的示例代码:

library(rpart)

x <- as.data.frame(matrix(sample(c(-1, +1), 50 * 3000, replace = T), nrow = 50))
y <- rnorm(50)

x.fac <- as.data.frame(lapply(x, factor))


现在比较:

system.time(rpart( y ~ ., data = x, method = 'anova'))

   user  system elapsed
   1.62    0.21    1.85

system.time(rpart( y ~ ., data = x.fac, method = 'anova'))

   user  system elapsed
   246.87  165.91  412.92


每个变量(因子)仅处理一个潜在的拆分可能性比处理整个范围的潜在拆分(对于连续变量)更为简单和快捷,因此,我对rpart行为最困惑。任何澄清/建议将不胜感激。

最佳答案

您需要对代码进行剖析以确保,但是如果时序差异不是由R引起的,那么我会感到惊讶,因为R在准备模型矩阵时必须将每个因子变量转换为两个二进制变量。

尝试

Rprof("rpartProfile.Rprof")
rpart( y ~ ., data = x.fac, method = 'anova')
Rprof()

summaryRprof("rpartProfile.Rprof")


然后看看时间在哪里度过。我现在已经完成了:

> summaryRprof("rpartProfile.Rprof")
$by.self
                          self.time self.pct total.time total.pct
"[[<-.data.frame"            786.46    72.45     786.56     72.46
"rpart.matrix"               294.26    27.11    1081.78     99.66
"model.frame.default"          1.04     0.10       3.00      0.28
"terms.formula"                0.96     0.09       0.96      0.09
"as.list.data.frame"           0.46     0.04       0.46      0.04
"makepredictcall.default"      0.46     0.04       0.46      0.04
"rpart"                        0.44     0.04    1085.38     99.99
"[[.data.frame"                0.16     0.01       0.42      0.04
"<Anonymous>"                  0.16     0.01       0.18      0.02
"match"                        0.14     0.01       0.22      0.02
"print"                        0.12     0.01       0.12      0.01
"model.matrix.default"         0.10     0.01       0.44      0.04
....

$by.total
                          total.time total.pct self.time self.pct
"rpart"                      1085.38     99.99      0.44     0.04
"rpart.matrix"               1081.78     99.66    294.26    27.11
"[[<-"                        786.62     72.47      0.06     0.01
"[[<-.data.frame"             786.56     72.46    786.46    72.45
"model.frame.default"           3.00      0.28      1.04     0.10
"eval"                          3.00      0.28      0.04     0.00
"eval.parent"                   3.00      0.28      0.00     0.00
"model.frame"                   3.00      0.28      0.00     0.00
"terms.formula"                 0.96      0.09      0.96     0.09
"terms"                         0.96      0.09      0.00     0.00
"makepredictcall"               0.50      0.05      0.04     0.00
"as.list.data.frame"            0.46      0.04      0.46     0.04
"makepredictcall.default"       0.46      0.04      0.46     0.04
"as.list"                       0.46      0.04      0.00     0.00
"vapply"                        0.46      0.04      0.00     0.00
"model.matrix.default"          0.44      0.04      0.10     0.01
"[["                            0.44      0.04      0.02     0.00
"model.matrix"                  0.44      0.04      0.00     0.00
....

$sample.interval
[1] 0.02

$sampling.time
[1] 1085.5


从上面请注意,函数rpart.matrix花费了大量时间:

> rpart:::rpart.matrix
function (frame)
{
    if (!inherits(frame, "data.frame") || is.null(attr(frame,
        "terms")))
        return(as.matrix(frame))
    for (i in 1:ncol(frame)) {
        if (is.character(frame[[i]]))
            frame[[i]] <- as.numeric(factor(frame[[i]]))
        else if (!is.numeric(frame[[i]]))
            frame[[i]] <- as.numeric(frame[[i]])
    }
    X <- model.matrix(attr(frame, "terms"), frame)[, -1L, drop = FALSE]
    colnames(X) <- sub("^`(.*)`", "\\1", colnames(X))
    class(X) <- c("rpart.matrix", class(X))
    X
}


但这是大部分时间都花在该函数中的for循环上,实际上是转换每列并将其添加回数据帧。

08-24 14:47