我已经在一个相当小的数据集(即11个变量的28个观测值)上对100,000个分类树进行了随机森林分析。
然后我绘制了可变重要性的图
在生成的图中,至少一个重要变量中的%IncMSE和IncNodePurity之间存在严重的不匹配。实际上,对于前者而言,变量的重要性似乎排名第七(即%IncMSE
有人可以启发我如何解释这种不匹配吗?
所讨论的变量与另一个变量显着相关,该变量在两个图中均始终排在第二位。这可能是一个线索吗?
最佳答案
第一张图显示,如果通过随机排列为变量分配值,则MSE会增加多少。值越高,变量重要性越高。
另一方面,节点纯度是通过基尼系数来衡量的,基尼系数是该变量拆分前后RSS值之间的差异。
由于变量重要性标准的概念在两种情况下是不同的,因此您对不同变量的排名不同。
没有固定的标准来选择可变重要性的“最佳”度量,这取决于您遇到的问题。
关于machine-learning - 随机森林:%IncMSE和%NodePurity之间不匹配,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16465109/