This question already has answers here:
Difference between min_samples_split and min_samples_leaf in sklearn DecisionTreeClassifier
(2个答案)
去年关闭。
我正在努力拟合
我是否需要同时设置
我想我只需要其中一个,因为一个实际上是另一个的一半。我的理解正确吗?
(2个答案)
去年关闭。
我正在努力拟合
RandomForestClassifier
,并遇到了两个参数:min_sample_split
和min_sample_leaf
。我是否需要同时设置
min_sample_split
和min_sample_leaf
?我想我只需要其中一个,因为一个实际上是另一个的一半。我的理解正确吗?
最佳答案
因此,基本上min_sample_split
是最小值。分割所需的样本数量。例如,如果min_sample_split = 6
并且节点中有4个样本,则将不会发生拆分(无论熵如何)。
另一方面,min_sample_leaf
基本上是最小值。的样本必须是叶节点。假设min_sample_leaf = 3
,并且在包含5个样本的节点可以分别拆分为大小为2和3的两个叶节点之后,将不会发生拆分,因为最小叶子尺寸为3。
您可以查看this和this以获得进一步的阅读。
更新:RandomForest和GradientBoostClassifier的行为差异在很大程度上归因于它们如何训练自己(梯度增强是顺序分类器的集合),您可以阅读有关它的更多信息here来了解梯度增强的内部工作
关于python - 在RandomForestClassifier中,min_sample_split和min_sample_leaf的作用是什么? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50902523/
10-11 19:37