我一直在R上训练700万行数据(41个功能)中的randomForest模型。这是一个示例调用:
myModel
我肯定认为只有50棵树和30个终端节点,“myModel”的内存占用量会很小。但是转储文件中有65兆。该对象似乎持有训练过程中的各种预测,实际和投票数据。
如果我只想要森林怎么办?我想要一个很小的转储文件,以后可以加载以快速做出预测。我觉得森林本身不应该那么大...
任何人都知道如何将这种吸盘剥离成我可以预测的东西吗?
最佳答案
试图摆脱将答案发布为评论的习惯。?randomForest
建议不要将公式接口(interface)与大量变量一起使用...如果不使用公式接口(interface),结果是否会有所不同? ?randomForest
的“值”部分还告诉您如何关闭某些输出(重要性矩阵,整个林,接近矩阵等)。
例如:
myModel <- randomForest(mydata[,!grepl("RESPONSE",names(mydata))],
mydata$RESPONSE, ntree=50, maxnodes=30, importance=FALSE,
localImp=FALSE, keep.forest=FALSE, proximity=FALSE, keep.inbag=FALSE)
关于r - 如何缩小randomForest模型的大小?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13691029/