我是Random Forests的新手,我对回归有疑问。我正在使用R包randomForests计算RF模型。

我的最终目标是选择对预测连续性状重要的变量集,因此,我正在计算一个模型,然后删除平均准确度下降幅度最小的变量,然后计算一个新模型,依此类推。这适用于RF分类,我使用了来自预测(训练集),开发和验证数据集的OOB错误来比较模型。现在,通过回归,我想根据解释的%variation和MSE比较模型。

我正在评估MSE和%var解释的结果,使用model$predicted的预测手动计算时得到的结果完全相同。但是,当我执行model$mse时,显示的值对应于最后计算的树的MSE值,并且%var解释也是如此。

例如,您可以在R中尝试以下代码:

library(randomForest)
data("iris")
head(iris)

TrainingX<-iris[1:100,2:4] #creating training set - X matrix
TrainingY<-iris[1:100,1]  #creating training set - Y vector

TestingX<-iris[101:150,2:4]  #creating test set - X matrix
TestingY<-iris[101:150,1]  #creating test set - Y vector

set.seed(2)

model<-randomForest(x=TrainingX, y= TrainingY, ntree=500, #calculating model
                    xtest = TestingX, ytest = TestingY)

#for prediction (training set)

pred<-model$predicted

meanY<-sum(TrainingY)/length(TrainingY)

varpY<-sum((TrainingY-meanY)^2)/length(TrainingY)

mseY<-sum((TrainingY-pred)^2)/length(TrainingY)

r2<-(1-(mseY/varpY))*100

#for testing (test set)

pred_2<-model$test$predicted

meanY_2<-sum(TestingY)/length(TestingY)

varpY_2<-sum((TestingY-meanY_2)^2)/length(TestingY)

mseY_2<-sum((TestingY-pred_2)^2)/length(TestingY)

r2_2<-(1-(mseY_2/varpY_2))*100

training_set_mse<-c(model$mse[500], mseY)
training_set_rsq<-c(model$rsq[500]*100, r2)
testing_set_mse<-c(model$test$mse[500],mseY_2)
testing_set_rsq<-c(model$test$rsq[500]*100, r2_2)

c<-cbind(training_set_mse,training_set_rsq,testing_set_mse, testing_set_rsq)
rownames(c)<-c("last tree", "by hand")
c
model


因此,运行此代码后,您将获得一个包含MSE和%var说明(也称为rsq)值的表。第一行称为“最后一棵树”,其中包含森林中第500棵树的MSE和%var值。第二行称为“手工”,它包含基于向量model$predictedmodel$test$predicted在R中计算的结果。

因此,我的问题是:

1-树的预测是否以某种方式累积?还是它们彼此独立? (我以为他们是独立的)

2-是否将最后一棵树视为所有其他树的平均值?

3-为什么MSE和%var解释的RF模型(调用model时出现在主板上)与第500个树中的模型相同(请参阅表的第一行)?向量model$msemodel$rsq是否包含累积值?

在最后一次编辑后,我发现了来自Andy Liaw(软件包的创建者之一)的帖子,其中说MSE和%var的解释实际上是累积的!:https://stat.ethz.ch/pipermail/r-help/2004-April/049943.html

最佳答案

不确定我了解您的问题是什么;我还是试试看...


  1-树的预测是否以某种方式累积?还是他们
  彼此独立? (我以为他们是独立的)


您的想法正确;树木彼此独立,因此它们的预测确实是独立的。实际上,这是RF模型的关键优势,因为它允许并行实现。


  2-是否将最后一棵树视为所有其他树的平均值?


没有;如上所述,所有树木都是独立的。


  3-如果每棵树都有预测,那么我如何获得所有树的矩阵,因为我需要为森林解释MSE和%var?


鉴于上面的代码,这就是您真正开始不清楚的地方。您说需要的MSE和r2正是您在mseYr2中已经计算的:

mseY
[1] 0.1232342

r2
[1] 81.90718


毫无疑问,这些是model报告的值完全相同:

model
# result:

Call:
 randomForest(x = TrainingX, y = TrainingY, ntree = 500)
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 1

          Mean of squared residuals: 0.1232342
                    % Var explained: 81.91


所以我不确定我是否真的能看到您的问题,或者这些值与“所有树木的矩阵”有什么关系...


  但是当我执行model$mse时,显示的值对应于该值
  最后一棵树的MSE的百分比,%var也是如此
  解释。


最不能肯定的是:model$mse是长度等于树数(此处为500)的向量,其中包含每棵树的MSE; (请参见下面的UPDATE)我在实践中从未见过任何使用(类似于model$rsq):

length(model$mse)
[1] 500

length(model$rsq)
[1] 500


更新:对OP自己表示敬意(请参阅评论),他发现model$msemodel$rsq中的数量确实是累积的(!);来自软件包维护者Andy Liaw的旧(2004)线程,Extracting the MSE and % Variance from RandomForest


  几种方法:
  
  
  阅读?randomForest,尤其是“ Value”部分。
  查看str(myforest.rf)。
  查看print.randomForest。
  
  
  如果森林有100棵树,则mse和rsq是具有100的向量
  每个元素,第i个元素是森林的mse(或rsq)
  由第一批i树组成。所以最后一个元素是mse(或
  rsq)。

关于r - 随机森林回归-累积MSE?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55198048/

10-12 19:43