我读了很多书,对k折感到有些困惑。我了解其背后的概念,但不确定如何部署它。
在数据探索之后,我通常会看到的通常步骤是train_test_split
,对训练集进行编码和缩放fit_transform
,然后在测试哪种算法有效之前就先对测试集进行拟合。之后,他们调整超参数。
因此,如果现在要使用k折,是否要避免使用train_test_split?我们在哪个位置使用k折?
谢谢!
最佳答案
不可以。K折将您的数据分为训练测试的K
次,因此您可以训练K
不同的模型。
这种方法使您的模型结果更加可靠,因为您可以用数据集的不同部分训练K
不同的模型,并且还可以预测数据的不同部分K
的时间。最后,您可以简单地获取K
模型的平均分数。
关于machine-learning - 我们仍然需要K折实现train_test_split吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59825955/