由于该类的文档不是很清楚。我不明白我赋予它什么价值。


  cross_val_score(estimator,X,y = None)


这是我的代码:

clf = LinearSVC(random_state=seed, **params)
cvscore = cross_val_score(clf, features, labels)


我不确定这是否正确,或者我是否需要提供X_train和y_train而不是功能和标签。

谢谢

最佳答案

即使使用cross_val_score,也最好将测试集和训练集分开。其背后的原因是知识泄漏。从根本上讲,这意味着当您同时使用训练集和测试集时,会将信息从测试集泄漏到模型中,从而使模型产生偏差,从而导致错误的预测。

这是关于同一问题的详细blog post

参考文献:


Reddit post on cross-validation
Cross_val_Score example showing correct way of using it
A similar question on stats.stackexchange

07-24 09:53