我读了很多书,对k折感到有些困惑。我了解其背后的概念,但不确定如何部署它。

在数据探索之后,我通常会看到的通常步骤是train_test_split,对训练集进行编码和缩放fit_transform,然后在测试哪种算法有效之前就先对测试集进行拟合。之后,他们调整超参数。

因此,如果现在要使用k折,是否要避免使用train_test_split?我们在哪个位置使用k折?

谢谢!

最佳答案

不可以。K折将您的数据分为训练测试的K次,因此您可以训练K不同的模型。

这种方法使您的模型结果更加可靠,因为您可以用数据集的不同部分训练K不同的模型,并且还可以预测数据的不同部分K的时间。最后,您可以简单地获取K模型的平均分数。

关于machine-learning - 我们仍然需要K折实现train_test_split吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59825955/

10-11 06:20