This question already has answers here:
Difference between min_samples_split and min_samples_leaf in sklearn DecisionTreeClassifier
                                
                                    (2个答案)
                                
                        
                                去年关闭。
            
                    
我正在努力拟合RandomForestClassifier,并遇到了两个参数:min_sample_splitmin_sample_leaf

我是否需要同时设置min_sample_splitmin_sample_leaf

我想我只需要其中一个,因为一个实际上是另一个的一半。我的理解正确吗?

最佳答案

因此,基本上min_sample_split是最小值。分割所需的样本数量。例如,如果min_sample_split = 6并且节点中有4个样本,则将不会发生拆分(无论熵如何)。

另一方面,min_sample_leaf基本上是最小值。的样本必须是叶节点。假设min_sample_leaf = 3,并且在包含5个样本的节点可以分别拆分为大小为2和3的两个叶节点之后,将不会发生拆分,因为最小叶子尺寸为3。

您可以查看thisthis以获得进一步的阅读。

更新:RandomForest和GradientBoostClassifier的行为差异在很大程度上归因于它们如何训练自己(梯度增强是顺序分类器的集合),您可以阅读有关它的更多信息here来了解梯度增强的内部工作

关于python - 在RandomForestClassifier中,min_sample_split和min_sample_leaf的作用是什么? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50902523/

10-11 19:37