我最近开始与sklearn合作,偶然发现了
ShuffleSplit功能。即使我了解它的概念以及它的含义,我也不太了解它必须发挥作用的参数,例如n_split。根据sklearn的文档,其内容如下:
n_splits:int,默认值10重新改组和拆分的次数
迭代。
我最好的猜测是,它告诉StratifieShufflesplit函数数据中存在的starta数。
最佳答案
n_splits
是几乎每个交叉验证器的参数。通常,它确定您将创建多少个不同的验证(和培训)集。
如果使用StratifiedShuffleSplit
,则它不表示层数-这些是从数据集中分类目标的基础相对频率中隐含的。
请参阅以下官方文档的报价(完整链接here)
分层洗牌
StratifiedShuffleSplit是ShuffleSplit的变体,它返回
分层拆分,即通过保留相同内容来创建拆分
整套目标中每个目标类别的百分比。