我正在使用R包randomForest对某些生物学数据进行回归分析。我的训练数据大小为38772 X 201

我只是想知道-树ntree的数目和每级mtry的变量数目的哪个值是一个好值?是否存在一个近似公式来查找此类参数值?

输入数据中的每一行都是200个字符,代表氨基酸序列,我想建立一个回归模型以使用这种序列来预测蛋白质之间的距离。

最佳答案

mtry的默认设置非常明智,因此实际上不需要对其进行处理。有一个tuneRF函数可优化此参数。但是,请注意,这可能会导致偏差。

引导复制的数量没有优化。我通常从ntree=501开始,然后绘制随机森林对象。这将向您显示基于OOB错误的错误收敛。您希望有足够的树来稳定错误,但又不要过多,以至于无法使整体过度关联,从而导致过度拟合。

需要注意的是:变量交互以比错误更慢的速度稳定,因此,如果您有大量的自变量,则需要更多的重复。我将ntree保持为奇数,以便可以打破联系。

对于您问题的维度,我将开始ntree=1501。我还建议您考虑一种已发布的变量选择方法,以减少自变量的数量。

关于r - 为随机森林回归模型设置ntree和mtry的值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13956435/

10-10 18:47